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Prólogo 


El muestreo es tal vez el oficio que caracteriza mejor la disciplina estadística. Se 
trata nada menos que de la planeación y ejecución de la recolección organizada de 
información con el fin de conocer o estimar propiedades generales de una población 
o de un fenómeno natural. Para ello, involucra, no solo la estrategia de selección 
probabilística de una muestra, sino que también hace explícito el estimador que 
proveerá el valor del parámetro que, a juicio del investigador, resume la propiedad 
estudiada. 


Es indudable que los sistemas de cómputo han contribuido enormemente al desa- 
rrollo de nuevos métodos y a la práctica de los tradicionales con mayor confianza. 
Las fórmulas y los algoritmos se programan y se ponen en marcha y todo el tra- 
bajo numérico se deja en manos del computador, incluyendo la generación de los 
números pseudoaleatorios como punto de partida para la selección de las mues- 
tras y para la exploración de propiedades de los diseños mediante métodos de 
simulación. Igualmente, el muestreo se ha beneficiado de desarrollos abundantes 
y profundos de otros campos de la estadística que lo han enriquecido con nuevos 
métodos en los años recientes. 


El profesor Andrés Gutiérrez emprende la tarea de entregar al lector un libro 
conceptualmente sólido, que se caracteriza por el equilibrio en la presentación 
intuitiva de los conceptos, apoyándose en (1) su estrategia pedagógica de Marco y 
Lucy, manteniendo una población y un marco de muestreo a lo largo de su texto, 
lo que le permite ejemplificar y comparar los diseños en lo referente a su eficiencia, 
(2) el desarrollo matemático riguroso de las propiedades de los diseños y de los 
estimadores, y (3) la práctica de los algoritmos con el paquete TeachingSampling, 
elaborado por él mismo para ilustrar los procedimientos propuestos. 


De esta manera, el estudioso del tema encuentra cómo aplicar de manera inmediata 
los diversos procedimientos sin verse en la necesidad de emprender manualmente 
la búsqueda de soluciones o, si lo desea, tiene a su alcance los programas que le 
permiten comparar los resultados obtenidos con los que encuentra por sus pro- 
pios medios. La primera parte contiene los métodos tradicionales que usualmente 
se enseñan en un primer curso de muestreo. La segunda está diseñada para un 
curso más avanzado de pregrado. En la tercera, el autor incluye temas recientes, 
provenientes de artículos publicados en revistas especializadas y de aparición más 
escasa en otros textos y que pueden ser parte de cursos de posgrado. 


La lectura del texto es agradable y clara, acompañada de numerosos ejemplos 
lexicográficos con cantidades pequeñas de datos que ilustran el detalle de las po- 
sibilidades. Sin duda, el libro que nos presenta el profesor Andrés Gutiérrez tiene 


el sello de un trabajo personal serio y novedoso que el lector apreciará. 


Jorge Ortiz Pinilla, PhD. 
Diplóme de docteur de troisieme cycle 
Université Henri Poincaré, Nancy 1 


Prefacio 


Aunque muy poderoso, el término estrategia de muestreo no ha tenido la trascen- 
dencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e 
incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades 
están ligadas al diseño de muestreo que se haya utilizado en la recolección de la 
información. Para el autor, el aprendizaje de esta materia es más sencillo cuando se 
valora de igual manera el diseño de muestreo junto con el estimador del parámetro 
de interés utilizado en la población finita. No se puede desconocer la regla de oro 
del muestreo que clama: utilizar diseños de muestreo que induzcan probabilidades 
de inclusión (o selección, según sea el caso) proporcionales al valor de la carac- 
terística de interés en la población y utilizar estimadores que involucren dichas 
probabilidades. Por lo anterior, se ha decido titular este texto como Estrategias de 
muestreo, diseño de encuestas y estimación de parámetros. 


En la búsqueda combinada de una mejor estrategia de muestreo se ha querido 
dividir este texto en tres partes que pueden ser utilizadas en los distintos niveles 
de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. 
La división del libro corresponde al desarrollo teórico del muestreo a través de su 
corta historia. 


La primera parte del libro es un recuento de las estrategias de muestreo más 
comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemáti- 
ca, el lector será introducido en el ámbito de la inferencia basada en el diseño de 
muestreo, que considera a los valores de la característica de interés como pseudo- 
parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se 
hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada 
estrategia planteada, que corresponden a conjuntos de datos que se obtuvieron 
para la realización de una encuesta. Así, Marco es el pseudonombre del marco de 
muestreo y Lucy corresponde a una población de empresas en el sector industrial. 
A diferencia de la mayoría de los libros de muestreo clásicos, se ha querido pro- 
poner la revisión de todas las estrategias de muestreo con un sólo «marco> de 
muestreo, en algunas ocasiones más generoso que en otras, y una sola población, 
<Lucy>, con el fin de plantear al lector un problema que puede ser resuelto desde 
diversos ángulos y no, como sucede en algunos libros de muestreo, proponer ejem- 
plos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca 
del desarrollo de la estrategia. En esta parte se exponen tres conceptos totalmente 
determinantes al momento de plantear una estrategia de muestreo. El primero, y 
más importante de ellos, es el soporte que define la realización de una muestra 
probabilística y por consiguiente la validez en la inferencia. El lector puede darse 
cuenta de la importancia de este concepto al diferenciarlo de la muestra aleatoria, 
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que no es más que un vector aleatorio. En segundo lugar se hace énfasis en el 
concepto de diseño de muestreo tratándolo como una distribución de probabilidad 
multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta 
primera parte se demuestra que efectivamente el diseño de muestreo propuesto 
verifica las propiedades de una distribución de probabilidad. Por supuesto, el últi- 
mo concepto es el de estimador cuya definición y uso es más difundido entre los 
usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico 
y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desa- 
rrollo computacional del paquete TeachingSampling Gutierrez (2009) creado en el 
ambiente del software de uso libre R de la manera más amigable posible. 


La segunda parte de este texto, corresponde a la utilización y aprovechamiento 
de la información auxiliar disponible en el marco de muestreo. No sólo se revi- 
san estimadores que mejoran la eficiencia de la estrategia, sino que también se 
adjunta al proceso de estimación el uso de un modelo que permite describir el 
comportamiento de la característica de interés en la población dando un paso muy 
importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a 
la característica de interés como una variable aleatoria en el modelo propuesto. En 
esta parte, se sigue el hermoso enfoque de Bethelehem éz Keller (1987) en donde 
no se hacen supuestos acerca de la validez del modelo de superpoblación. En esta 
línea de pensamiento la única aseveración que se realiza es que los residuales del 
modelo sí tienen una menor varianza que la característica de interés. Al final de 
esta parte se presenta una muy breve introducción a la inferencia en poblaciones 
finitas bajo un enfoque basado en el modelo supuesto. Es interesante observar que, 
con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en 
la estimación de dominios raros más conocidos como áreas pequeñas. Este apar- 
tado empieza con la famosa discusión de Basu (1971) que aun hoy sigue siendo 
la piedra de tropiezo entre las corrientes de la estadística. Este tipo de inferen- 
cia no considera el diseño de muestreo ni la forma en la que la información fue 
recolectada, sino que se basa en el modelo poblacional propuesto para realizar la 
inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán 
las estimaciones. 


La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores 
avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para 
convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. 
Entre otros selectos temas, se consideran los estimadores de calibración, el mues- 
treo balanceado y el muestreo indirecto. Estos contenidos están supeditados a un 
gran sesgo personal inducido por los años de asistencia al seminario de muestreo 
de la Universidad Nacional de Colombia. 


Por supuesto, este libro no hubiera podido ser escrito sin la enorme influencia del 
maestro Leonardo Bautista, quien me enseñó que lo importante no es la memori- 
zación de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la 
mejor estrategia. Lo anterior tiene sentido, no sólo en el desarrollo práctico de la 
ciencia estadística, sino en el diario vivir. 


Por último, el autor expresa sus agradecimientos a Dios, quien le ha dado todo lo 
que tiene y le ha seleccionado para pertenecer en la muestra; de no ser así, no se 
habrían escrito estas líneas. Agradece el infinito apoyo que encontró en su esposa 
Hanwen Zhang en la corrección de las demostraciones así como en la invaluable 
motivación que le ha brindado desde el día que la conoció. De la misma manera, 


agradece enormemente el continuo ánimo de su tío y amigo Oscar Ortega, por sus 
valiosos consejos desde su juventud y porque gran parte de este material se gestó 
en su residencia de los Estados Unidos. A su padre por la excelente crianza, a su 
abuela Lola porque sus oraciones nunca han cesado y a sus tías Martha, Myriam, 
Pilar y Clara. A su hermanita Tatiana Torres. A sus valiosos amigos. 


Este texto es un producto del grupo de investigación en Muestreo y Marketing, 
adscrito al Centro de Investigaciones y Estudios Estadísticos (CIEES) de la Fa- 
cultad de Estadística de la Universidad Santo Tomás. 
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Parte I 


Inferencia basada en el 
diseno de muestreo 


Capítulo 1 


Encuestas y estudios por 
muestreo 


Durante todo el siglo pasado, ha surgido una serie de teorías y principios 
que ofrecen un marco de referencia unificado en el diseño, implementación 
y evaluación de encuestas. Este marco de referencia se conoce comúnmente 
como el paradigma del «error total de muestreo» y ha encaminado la 
investigación moderna hacia una mejor calidad de las encuestas. 


Robert M. Groves (2004) 


Este capítulo, a manera de introducción, busca identificar los principios (no ma- 
temáticos) del diseño, recolección, procesamiento y análisis de los estudios por 
muestreo, cuyo crecimiento va en aumento al pasar de los años, pero que sigue 
teniendo ciertas limitantes de tipo económico y logístico. Un estudio por muestreo 
involucrará a profesionales de diferentes disciplinas quienes se ocupan de la reduc- 
ción de costos y el aumento de la calidad de las estimaciones. Un gran campo de la 
ciencia estadística se preocupa por minimizar los errores muestrales mientras que, 
por otra parte, otro gran campo de las ciencias sociales se ocupa en minimizar los 
errores que pueden ser cometidos en el periodo de la recolección de los datos. 


1.1 Conceptos metodológicos 


El muestreo es un procedimiento que responde a la necesidad de información es- 
tadística precisa sobre la población y los conjuntos de elementos que la conforman; 
el muestreo trata con investigaciones parciales sobre la población que apuntan a 
inferir a la población completa. Es así como en las últimas décadas ha tenido bas- 
tante desarrollo en diferentes campos principalmente en el sector gubernamental 
con la publicación de las estadísticas oficiales que permiten realizar un seguimien- 
to a las metas del gobierno, en el sector académico, en el sector privado y de 
comunicaciones. Según Lohr (2000) el gasto anual en encuestas por muestreo en 
Estados Unidos representa de 2 a 5 billones de dólares. Este aumento del uso de 
las técnicas de muestreo en la investigación es claro porque es un procedimiento 
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4 1. Encuestas y estudios por muestreo 


que cuesta mucho menos dinero, consume menos tiempo y puede incluso ser más 
preciso que al realizar una enumeración completa, también llamada censo. Una 
muestra bien seleccionada de unos cuantos miles de individuos puede representar 
con gran precisión una población de millones. 


Es requisito fundamental de una buena muestra que las características de interés 
que existen en la población se reflejen en la muestra de la manera más cercana 
posible, para esto se necesitan definir los siguientes conceptos 


e Población objetivo: es la colección completa de todas las unidades que se 
quieren estudiar. 


e Muestra: es un subconjunto de la población. 


e Unidad de muestreo: es el objeto a ser seleccionado en la muestra que 
permitirá el acceso a la unidad de observación. 


e Unidad de observación: es el objeto sobre el que finalmente se realiza la 
medición. 


e Variable de interés: es la característica propia de los individuos sobre la 
que se realiza la inferencia para resolver los objetivos de la investigación. 


En la teoría de muestreo la variable de interés no se supone como una variable 
aleatoria sino como una cantidad fija o una característica propia de las unidades 
que componen la población. 


1.1.1 Encuesta 


Por encuesta se entiende una investigación estadística con las siguientes carac- 
terísticas: 


1. El objetivo de una encuesta es proveer información acerca de la población 
finita y/o acerca de subpoblaciones de interés especial. 


2. Asociado con cada elemento de la población existe una o más variables de 
interés. Una encuesta permite conseguir información sobre características 
poblacionales desconocidas llamadas parámetros. Éstas son funciones de los 
valores de las variables de interés y son desconocidos y requeridos. 


3. Elacceso y observación de los elementos de la población se establece mediante 
un algoritmo de muestreo, que es un mecanismo que asocia los elementos de 
la población con unidades de muestreo. 


4. Una muestra de elementos se escoge. Esto puede ser hecho mediante la se- 
lección de las unidades de observación en el esquema. Una muestra es pro- 
babilística si se realiza mediante un mecanismo probabilístico y se conoce la 
probabilidad de selección de todas las posibles muestras. 


5. Los elementos seleccionados en la muestra son observados y se realiza el 
proceso de medición; es decir para cada elemento de la muestra la variable 
de interés se mide y sus valores se graban. 
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6. Los valores grabados de las variables son usados para calcular estimaciones 
de los parámetros de interés. 


7. Las estimaciones son finalmente publicadas. Estas sirven para la toma de 
decisiones. 


Ciclo de vida de una encuesta 


Groves, Fowler, Couper, Lepkowski, Singer éz R. (2004) afirman que una encuesta 
va desde el diseño, pasando por la ejecución hasta, la entrega de las estimaciones. 
Si no se realiza un buen diseño no habrán buenas estimaciones. En este camino, 
el investigador debe transitar los siguientes pasos: 


1. Búsqueda de constructores: los constructores son las ideas abstractas 
acerca de las cuales el investigador desea inferir. En una encuesta de victimi- 
zación, se busca medir cuántos incidentes relacionados con crímenes tuvieron 
lugar en cierto periodo de tiempo; el investigador debe decidir acerca de ¿qué 
es un crimen?, ¿quién es una víctima?. En una encuesta de calidad de vida, 
se desea saber cuántas personas pobres hay en una determinada región; por 
tanto, es necesario decidir acerca de ¿qué es pobreza? 


2. Medición: la cuestión clave para realizar una buena medición es diseñar pre- 
guntas que produzcan respuestas que reflejen perfectamente los constructores 
que se intentan medir. Por ejemplo, en la encuesta de victimización, se pue- 
de preguntar lo siguiente: «en los últimos seis meses ¿ha llamado usted a la 
policía para reportar algo que le haya sucedido y que usted considere que sea 
un crimen?>». Por otro lado, en la encuesta de calidad de vida, un indicador 
de pobreza puede estar dado en términos del número de electrodomésticos 
que posee el hogar. Así, es posible preguntar lo siguiente: «¿cuántos televi- 
sores tiene en su hogar?> o también <¿cuántas bombillas eléctricas tiene su 
hogar?> 


3. Respuesta: la naturaleza de las respuestas está determinada por la natura- 
leza de las preguntas. En algunas ocasiones la respuesta puede ser parte de 
la pregunta, siendo la tarea del respondiente escoger entre las categorías pre- 
guntadas; en otras ocasiones, el respondiente genera una respuesta concreta 
en sus propias palabras. 


4. Edición: existen relaciones lógicas entre las preguntas de una encuesta. Por 
ejemplo, si el respondiente declara tener 12 años de edad y haber dado a 
luz a 5 hijos, debe existir un proceso de edición para este individuo. Este 
proceso intenta detectar datos atípicos y revisar la información para obtener 
la mejor medida del constructor buscado. 


5. Análisis y entrega de resultados: el proceso estadístico arroja estima- 
ciones que permiten la toma de decisiones y la resolución de los objetivos 
propuestos al comienzo de la investigación. 
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1.1.2 Marco de muestreo 


Todo procedimiento de muestreo probabilístico requiere de un dispositivo que per- 
mita identificar, seleccionar y ubicar a todos y cada uno de los objetos pertene- 
cientes a la población objetivo y que participarán en la selección aleatoria. Este 
dispositivo se conoce con el nombre de marco de muestreo. En investigaciones 
por muestreo se consideran dos tipos de objetos: 


e Elementos: las unidades básicas e individuales sobre las que se realiza la 
medición. 


e Conglomerado: agrupación de elementos cuya característica principal es 
que son homogéneos dentro de sí, y heterogéneos entre sí. 


Cuando se dispone de un marco de elementos, se puede aplicar un diseño de mues- 
treo de elementos; en muchas ocasiones se utilizan diseños de muestreo de con- 
glomerados aunque se disponga de un marco de elementos. Si no se dispone de 
un marco de elementos (o es muy costoso construirlo) se debe recurrir a diseños 
de muestreo en conglomerados; es decir, que se utilizan marcos de conglomerados. 
Por ejemplo, al realizar una encuesta cuya unidad de observación sean las personas 
que viven en una ciudad, es muy difícil poder acceder a un marco de muestreo de 
las personas. Sin embargo, se puede tener acceso a la división sociodemográfica 
de la ciudad y así seleccionar algunos barrios de la ciudad, en una primera ins- 
tancia y luego, seleccionar a las personas de los barrios en una segunda instancia. 
En el ejemplo anterior, los barrios son un ejemplo claro de conglomerados. Estas 
agrupaciones de elementos tienen la características de aparecer en el estado de la 
naturaleza. De esta forma, si se dispone de un marco de elementos, por ejemplo, el 
listado de empleados de una entidad, es posible aplicar un diseño de muestreo de 
elementos, realizar la selección aleatoria y de acuerdo a ese mismo diseño realizar 
las estimaciones necesarias. El lector debe recordar que los elementos son las enti- 
dades que componen la población y las unidades de muestreo son las entidades que 
conforman el marco muestral. Cuando no existe un marco de muestreo disponible 
es necesario construirlo. Existen dos tipos de marcos de muestreo, a saber: 


e De Lista: listados físicos o magnéticos, ficheros, archivos de expedientes, 
historias clínicas que permiten identificar y ubicar a los objetos que partici- 
parán en el sorteo aleatorio. 


. De Área: mapas de ciudades y regiones en formato físico o magnético, foto- 
grafías aéreas, imágenes de satélite o similares que permiten delimitar regio- 
nes o unidades geográficas en forma tal que su identificación y su ubicación 
sobre el terreno sea posible. 


Es una virtud del marco si contiene información auxiliar que permite aplicar 
diseños muestrales y/o estimadores que conduzcan a estrategias más eficientes con 
respecto a la precisión de los resultados. O también si la información auxilia!] 


1 Toda información auxiliar disponible para todos y cada uno de los elementos del universo 
afecta directamente la estrategia empleada para obtener los objetivos de la investigación. Con 
respecto a la información auxiliar, es deseable que esté bien correlacionada con la característica 
de interés. 
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está organizada por órdenes deseables. Se llama información auxiliar discreta, si 
el marco de muestreo permite la desagregación de la población objetivo en ca- 
tegorías o grupos poblacionales más pequeños. Por ejemplo nivel socioeconómico, 
grupo industrial, etc. Se llama información auxiliar continua si existe una o varias 
características de interés de tipo continuo y positivas. Es deseable que la informa- 
ción auxiliar continua esté altamente relacionada con la característica de interés. 


Por otra parte, un marco de muestreo es defectuoso si presenta alguno o varios de 
los siguientes casos: 


e Sobre-cobertura: se presenta si en el dispositivo aparecen objetos que no 
pertenecen a la población objetivo. No son todos los que están. 


e Sub-cobertura: se da cuando algunos elementos de la población objetivo no 
aparecen en el marco de muestreo o cuando no se ha actualizado la entrada 
de nuevos integrantes. No están todos los que son. 


e Duplicación: La duplicación en un marco de muestreo se presenta si en el 
dispositivo aparecen varios registros para un mismo objeto. La razón más 
frecuente para la presencia de este defecto es la construcción no cuidadosa 
del marco a partir de la unión de registros administrativos de dos o más 
fuentes de información. 


Estos defectos ocasionan errores en el cálculo de las expresiones que se utilizarán 
para generar las correspondientes estimaciones, generando sesgo, pérdida de pre- 
cisión y, en algunos casos, que los resultados del estudio pierdan toda validez. 


Tipos de poblaciones objetivo 


Groves, Fowler, Couper, Lepkowski, Singer € R. (2004) consideran que los tipos 
de poblaciones objetivo que se presentan de manera más frecuente en un estudio 
por muestreo son las siguientes 


e Hogares y personas: el marco de muestreo más utilizado en estas pobla- 
ciones es de área. Como está basada en zonas geográficas, este tipo de marco 
requiere la vinculación de los hogares o personas a cada una de las áreas. 
Cuando se requiere seleccionar personas, este tipo de marcos hace necesarias 
muchas etapas de muestreo; de esta forma, se selecciona un subconjunto de 
zonas geográficas. Para cada zona seleccionada, se procede a seleccionar un 
subconjunto de secciones, luego de manzanas, luego de hogares y, finalmen- 
te, para cada hogar se seleccionan las personas; siendo éstas las unidades de 
observación. 


e Clientes, empleados o miembros de organizaciones: por lo general, 
para la selección de miembros de organizaciones se manejan marcos de lista. 
Es importante que el estadístico esté al tanto de la frecuencia y manera 
de actualización de la lista pues pueden presentar los tres tipos de defectos 
vistos anteriormente. 


e Organizaciones: existen diversos tipos de organizaciones, como por ejem- 
plo, iglesias, prisiones, empresas, hospitales, escuelas, etc. En encuestas a 
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establecimientos comerciales, es frecuente tener acceso a marcos de lista que 
agrupan a negocios con gran dispersión entre sí. Así, se puede encontrar des- 
de la tienda de barrio, cuyas ventas ascienden a 1000 dólares al mes, hasta 
un hipermercado que vende 500 millones de dólares al mes. 


e Eventos: en algunas ocasiones, la población objetivo son eventos. Hay mu- 
chos tipos de eventos que clasifican para la realización de una encuesta; entre 
ellos están los matrimonios, nacimientos, fallecimientos, periodos de depre- 
sión, tránsito de un automóvil en un segmento de la vía. Los marcos de 
muestreo para los eventos, de manera frecuente, son marcos de personas. 
Así, una persona ya ha experimentado el evento o no. De hecho, puede ha- 
ber experimentado varios eventos. Sin embargo, otro marco de muestreo para 
eventos puede estar dado en periodos de tiempo o espacio. 


e Poblaciones poco frecuentes: cuando la incidencia es muy baja (por ejem- 
plo las poblaciones de invidentes o con alguna enfermedad rara). General- 
mente, la manera para acceder a este tipo de poblaciones es mediante un 
marco de muestreo que contenga a esta población como un subconjunto de 
elementos que pueden ser ubicados. 


Ejemplo 1.1.1. Suponga que una entidad oficial del gobierno de su país está 
interesada en la realización de una encuesta de desempleo con el fin de determinar 
a) cuántas personas actualmente pertenecen a la fuerza laboral, tanto en el país en 
cuestión como en sus regiones o subdivisiones geográficas y b) qué proporción de 
éstas están desempleadas. Con base en lo anterior se tienen los siguientes aspectos 
para la realización de dicho estudio: 


e Población objetivo: Todas las personas de Colombia. 


e Dominios o subgrupos de interés: Grupos de edad, género, grupos ocupacio- 
nales y regiones del país. 


e Características de interés: Pertenencia a la fuerza laboral y estado de empleo. 
Estas toman valor uno o cero. 


e Parámetros de interés: Número total de personas pertenecientes a la fuerza 
laboral, número total de desempleados, proporción de desempleo. 


e Muestra: Se selecciona una muestra de la población con la ayuda de meca- 
nismos de identificación y ubicación de las personas en el país. 


e Observaciones: Cada persona incluida en la muestra es visitada por un en- 
cuestador entrenado, quien hará preguntas siguiendo un cuestionario estan- 
darizado y recolectará las respuestas en un instrumento apropiado. 


e Procesamiento: Los datos se editan y se preparan para la etapa de estimación. 


e Estimación: Se calculan las estimaciones sobre los parámetros de interés y 
también indicadores acerca de la incertidumbre de estas estimaciones. 
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1.1.3 Sesgo 


En el diseño y puesta en marcha de una encuesta puede ocurrir cierto tipo de 
situaciones que pueden sesgar las estimaciones finales. Este tipo de sesgos puede 
ocurrir antes, durante y después de la recolección de los datos. Es tarea del es- 
tadístico advertir ante todas las posibles instancias de los problemas que causan 
los sesgos y procurar que, en todas las etapas de la encuesta, se minimice el error 
humano y el error estadístico para que al final los resultados del estudio sean tan 
confiables como sea posible. 


Sesgo de selección 


Este tipo de sesgo ocurre cuando parte de la población objetivo no está en el 
marco de muestreo. Una muestra a conveniencid?] es sesgada pues las unidades 
más fáciles de elegir o las que más probablemente respondan a la encuesta no son 
representativas de las unidades más difíciles de elegir. (Lohr 2000) afirma que se 
presenta este tipo de sesgo si: 


1. La selección de la muestra depende de cierta característica asociada a las 
propiedades de interés. Por ejemplo: Frecuencia con que los adolescentes 
hablan con los padres acerca del SIDA. 


2. La muestra se realiza mediante elección deliberada o mediante un juicio 
subjetivo. Por ejemplo, si el parámetro de interés es la cantidad promedio 
de gastos en compras en un centro comercial y el encuestador elige a las 
personas que salen con muchos paquetes, entonces la información estaría 
sesgada puesto que no está reflejando el comportamiento promedio de las 
compras. 


3. Existen errores en la especificación de la población objetivo. Por ejemplo, en 
encuestas electorales, cuando la población objetivo contiene a personas que 
no están registradas como votantes ante la organización electoral de su país. 


4. Existe sustitución deliberada de unidades no disponibles en la muestra. Si, 
por alguna razón, no fue posible obtener la medición y consecuente obser- 
vación de la característica de interés para algún individuo en la población, 
la sustitución de este elemento debe hacerse bajo estrictos procedimientos 
estadísticos y no debe ser subjetiva en ningún modo. 


5. Existe ausencia de respuesta. Este fenómeno puede causar distorsión de los 
resultados cuando los que no responden a la encuesta difieren críticamente 
de los que si respondieron. 


6. La muestra está compuesta por respondientes voluntarios. Los foros radiales, 
las encuestas de televisión y los estudios de portales de internet no propor- 
cionan información confiable. 


2A pesar de que las muestras por conveniencia o por juicio no pueden ser utilizadas para 
estimar parámetros de la población, éstas sí pueden proporcionar información valiosa en las 
primeras etapas de una investigación o cuando no es necesario generalizar los resultados a la 
población. 
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Sesgo de medición 


Este tipo de sesgo ocurre cuando el instrumento con el que se realiza la medición 
tiene una tendencia a diferir del valor verdadero que se desea averiguar. Éste sesgo 
debe ser considerado y minimizado en la etapa de diseñó de la encuesta. Nótese 
que ningún análisis estadístico puede revelar que una pesa añadió a cada persona 
2Kg de más en un estudio de salud. (Lohr 2000) cita algunas situaciones en donde 
se presenta este sesgo de medición: 


1. Cuando el respondiente miente. Esta situación se presenta a menudo en en- 
cuestas que pregunta acerca del ingreso salarial, alcoholismo y drogadicción, 
nivel socioeconómico e incluso edad. 


2. Difícil comprensión de las preguntas. Por ejemplo: ¿No cree que no este es 
un buen momento para invertir? La doble negación en la pregunta es muy 
confusa para el respondiente. 


3. Las personas tienden a olvidar. Es bien sabido que las malas experiencias 
suelen ser olvidadas; esta situación debe acotarse si se está trabajando en 
una encuesta de criminalidad. 


4. Distintas respuestas a distintos entrevistadores. En algunas regiones es muy 
probable que la raza, edad o género del encuestador afecte directamente la 
respuesta del entrevistado. 


5. Leer mal las preguntas o polemizar con el respondiente. El encuestador puede 
influir notablemente en las respuestas. Por lo anterior, es muy importante 
que el proceso de entrenamiento del entrevistador sea riguroso y completo. 


6. La muestra está compuesta por respondientes voluntarios. Los foros radiales, 
las encuestas de televisión y los estudios de portales de internet no propor- 
cionan información confiable. 


1.2 Marco y Lucy 


Este libro toma como base de aplicación una investigación gubernamental que 
quiere responder al objetivo de medir el crecimiento económico en el sector indus- 
trial. 


Suponga que para completar el objetivo se ha propuesto desarrollar una encuesta a 
las empresas que hacen parte del sector industrial, para conocer el comportamien- 
to del sector en términos de constructores financieros, sociales y fiscales. Una 
vez termine el proceso de medición, se pueden calcular estimaciones y construir 
indicadores que permitan inferir acerca del crecimiento del sector en el periodo de 
interés. 


La población objetivo la conforman todas las empresas cuya actividad princi- 
pal esté ligada al sector industrial. El proceso de medición se hará con base en 
las características de interés; a saber: ingresos en el último año fiscal, impues- 
tos declarados en el último año fiscal y número de empleados. Adicionalmente, 
se requiere conocer si la empresa envía periódicamente algún tipo de material 
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publicitario por correo electrónico porque se sospecha que las empresas obtienen 
más ingresos cuando utilizan esta estrategia publicitaria, lo cual es favorable para 
el gobierno porque aumenta la contribución impositiva y aumenta la creación de 
empleos. 


Para obtener las respuestas, un entrevistador visitará las instalaciones físicas de 
la empresa y realizará las siguientes preguntas: 


1. En el último año fiscal, ¿a cuánto ascendieron los ingresos en esta empresa? 


2. En el último año fiscal, ¿a cuánto ascendieron los impuestos declarados por 
esta empresa? 


3. Actualmente, ¿cuántos empleados laboran para esta empresa? 


4. ¿Esta empresa acostumbra a enviar periódicamente material publicitario por 
correo electrónico a sus clientes o potenciales clientes? 


Se sabe que el tamaño de la población es de 2396 empresas. Dependiendo de la 
estrategia de muestreo que se vaya a utilizar y de la calidad del marco de muestreo, 
las unidades de muestreo pueden ser las mismas empresas. 


Para abordar la selección de una muestra que permita la inferencia acerca del 
crecimiento económico del sector, se dispone de un marco de muestreo con las 
siguientes características para cada empresa que conforma la población. 


1. Identificador: es una secuencia alfanumérica de dos letras y tres dígitos. 
Este número de identificación se le otorga a cada empresa en el momento de 
la constitución legal ante la entidad de registro pertinente. 


2. Ubicación: es la dirección que se encuentra registrada en la declaración de 
impuestos. 


3. Zona: la ciudad está conformada por barrios o zonas geográficas. Dependien- 
do de la dirección, la empresa pertenece a una y sólo una zona geográfica de 
la ciudad. 


4. Nivel: según los registros tributarios, las empresas se catalogan en tres gru- 
pos: 
(a) Grandes: empresas que tributan 49 millones de dólares al año o más. 


(b) Medianas: empresas que tributan más de 11 millones y menos de 49 
millones de dólares al año. 


(c) Pequeñas: empresas que tributan 11 millones de dólares al año o menos. 


Nótese que una empresa sólo puede pertenecer a un sólo un nivel industrial. 


Visualización en R 


El paquete TeachingSampling de R incluye dos archivos de datos. El marco de 
muestreo llamado Marco del cual se extraerá una muestra aleatoria de empresas que 
deben ser entrevistadas y que contiene la identificación, ubicación, zona y nivel de 


12 1. Encuestas y estudios por muestreo 


cada una de las empresas del sector industrial. Por otro lado, incorpora el conjunto 
de datos llamado Lucy en donde, se encuentran los valores de las características 
de interés para todos los elementos de la población. 


Para tener acceso a los dos conjuntos de datos es necesario cargar el paquete 
en el entorno de R. El paquete TeachingSampling puede ser cargado fácilmente 
mediante el uso de la siguiente instrucción: 


> library(TeachingSampling) 


Una vez cargado el paquete TeachingSampling, la visualización del marco de 
muestreo, se realiza de la siguiente forma: 


> data(Marco) 


> Marco[1:10,] 

ID Ubication Level Zone 
1 ABOO1 c1k1 Small A 
2 AB002 c1k2 Small A 
3  AB003 c1k3 Small A 
4  ABOO4 c1k4 Small A 
5 ABOO5 c1k5 Small A 
6 ABO06 c1k6 Small A 
7 ABOO7 c1k7 Small A 
8 AB008 c1k8 Small A 
9 ABO09 c1k9 Small A 
10 ABO10 c1k10 Small A 


La instrucción Marco [1:10,] se utiliza para mostrar las diez primeras empresas del 
marco de muestreo. Si se quiere visualizar todo el conjunto de datos, la instrucción 
Marco mostrará la totalidad del marco de muestreo. La función names muestra cada 
uno de los objetos que componen el archivo de datos, mientras que la función dim 
muestra las dimensiones del conjunto de datos. 


> names (Marco) 

[1] "ID" "Ubication" "Level" "Zone" 
> dimí(Marco) 

[1] 2396 4 


El tamaño poblacional es igual a 2396, por tanto el marco de muestreo tendrá igual 
número de filas y 4 columnas conteniendo la información acerca de la identifica- 
ción y ubicación de cada empresa en la población. La función attach permite el 
acceso a cada una de las variables del conjunto de datos. Así, para tener acceso al 
identificador y/o ubicación de las diez primeras empresas del marco de muestreo 
basta con digitar el siguiente código 


> attach(Marco) 
> ID[1:10] 

[1] ABOO1 ABO0O2 ABOO3 ABOO4 ABOO5 ABOOG ABOO7 ABOO8 ABOO9 ABO10 
> Ubication[1:10] 

[1] c1ik1 c1k2 c1k3 c1k4 c1k5 c1k6 c1k7 c1k8 c1k9 c1k10 
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De igual forma, se tiene acceso al valor de las características de interés para las 
diez primeras empresas del marco de muestreo, así 


> data(Lucy) 
> Lucy[1:10,] 


ID Ubication Level Zone Income Employees Taxes SPAM 


1 ABOO1 c1k1 Small A 281 41 3.0 no 
2  ABO02 c1k2 Small A 329 19 4.0 yes 
3  ABOO3 c1k3 Small A 405 68 7.0 no 
4  ABO04 c1k4 Small A 360 89 5.0 no 
5 ABOO5 c1k5 Small A 391 91 7.0 yes 
6  ABOO6 c1k6 Small A 296 89 3.0 no 
7  ABOO7 c1k7 Small A 490 22 10.5 yes 
8  ABO08 c1k8 Small A 473 57 10.0 yes 
9  ABOO9 c1k9 Small A 350 84 5.0 yes 
10 ABO10 c1k10 Small A 361 25 5.0 no 


La lectura del archivo de datos se hace de la siguiente manera: tomando como 
referencia la fila número 3 (la tercera empresa del conjunto de datos), es una 
empresa cuyo número de identificación es ABOO3, ubicada en la dirección c1k3, de 
nivel industrial Pequeño, localizada en la zona A. Esta empresa registró en el último 
año fiscal un ingreso neto de 405 millones de dólares y realizó un tributo de 7 mi- 
llones de dólares, actualmente da empleo a 68 empleados y sí envía periódicamente 
publicidad a sus clientes o potenciales clientes mediante correo electrónico. 


Nótese que el conjunto de datos poblacionales Lucy contiene el valor de las carac- 
terísticas de interés para cada empresa. Hasta este momento no se ha seleccionado 
ninguna muestra, pero si se supone hipotéticamente que la muestra seleccionada 
hubiese sido las diez primeras empresas del marco de muestreo, la base de datos, 
después de la medición se vería como lo muestra la salida anterior y con estos 
datos se procede a realizar las estimaciones requeridas para el cumplimiento de los 
objetivos de la investigación. 


Las estadísticas concernientes a las variables en las población se visualizan fácil- 
mente con la función summary aplicada al conjunto de datos Lucy. 


> summary (Lucy) 

Income Employees Taxes SPAM 
Min. : 1:20 Min. : 1.00 Min. : 0.50 no : 937 
1st Qu.: 230.0 1st Qu.: 38.00 1st Qu.: 2.00 yes:1459 
Median : 390.0 Median : 63.00 Median : 7.00 
Mean : 432.1 Mean : 63.42 Mean : 11.96 
3rd Qu.: 576.0 3rd Qu.: 84.00 3rd Qu.: 15.00 
Max. :2510.0 Max. :263.00 Max. :305.00 


Por medio de la función total, tenemos acceso al total de las tres características 
de interés. 


> total <- function(x)1length(x)*mean(x)) 
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> attach(Lucy) 
> total(Income); total(Employees); total(Taxes) 


Income Employees Taxes 
1035217 151950 28653.5 


El sector industrial tiene altos ingresos que ascienden a 1.035.217 millones de 
dólares, aporta al gobierno 28.653 millones de dólares en tarifas impositivas y 
emplea un total de 151.950 personas. 


La función tapply permite aplicar la función total y la función mean para calcular 
el total y el promedio, respectivamente, de las variables de interés en cada categoría 
de la variable Level. La función table hace un recuento del total de casos para 
una o más variables categóricas. 


> tapply(Income,Level,total) 
Big Medium Small 

103706 487351 444160 

> table(SPAM,Level) 


Level 
SPAM Big Medium Small 
no 26 291 620 
yes 57 446 956 


Nótese que la mayoría del ingreso del sector industrial es adquirido por las empresas 
medianas y pequeñas. Sin embargo, en promedio las empresas grandes doblan el 
ingreso de las medianas que a su vez es tres veces el ingreso de las empresas 
pequeñas. En términos absolutos, la estrategia publicitaria de enviar SPAM a los 
clientes o potenciales clientes se implementa con mayor frecuencia en las empresas 
pequeñas. 


La función xtabs permite realizar una tabulación cruzada entre las variables ca- 
tegóricas Level y SPAM de la base de datos. Los datos de las celdas indican el total 
de la variable Income. Nótese que el ingreso de las empresas que utilizan el SPAM 
como estrategia de publicidad dobla el ingreso de las empresas que no utilizan 
SPAM en casi todos los niveles industriales. 


> xtabs(Income”Level+SPAM) 


SPAM 
Level no yes 
Big 31914 711792 
Medium 190852 296499 
Small 175186 268974 


La figura 1.1. muestra la dispersión y locación de las características de interés 
por cada nivel industrial. En general, las empresas grandes tienen ingresos más 
altos, aportan una carga impositiva más alta y emplean a más personas que las 
empresas medianas y pequeñas. Es deseable que el marco de muestreo contenga la 
pertenencia al nivel industrial de cada empresa en la población porque es un buen 
discriminante y permite la implementación de estrategias de muestreo adecuadas 
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Figura 1.1: Boxplot de las características de interés en cada nivel industrial. 


que guíen a estimaciones más precisas. La función boxplot permite la creación del 
diagrama de caja y la función barplot muestra un diagrama de barras del total 
de la variable Level. 


> boxplot(Income ” Level,main=c("Boxplot de Ingreso")) 
> barplot(table(Level),main=c("Barras Nivel")) 


La figura 1.3. muestra que la distribución de las características de interés no es 
simétrica y es sesgada a la izquierda. Estos rasgos particulares se deben tener en 
cuenta al momento de escoger la mejor estrategia de muestreo. La función hist 
permite la creación de los histogramas y la función pie permite la creación de un 
gráfico de torta. 


> hist(Income,main=c("Histograma de Ingreso")) 
> pie(table(Level),main=c("Pie de Nivel")) 


La correlación lineal entre las características de interés es alta; entre Income y 
Taxes existe una correlación de 0.91, esto se puede explicar porque las empresas 
tributan una mayor cantidad de dinero si han obtenido mayores ingresos y vice- 
versa. Se utiliza la función cor para obtener la matriz de correlación entre las 
características de interés. 


> Datos <- data.frame(Income, Employees, Taxes) 
> cor(Datos) 

Income Employees Taxes 
Income 1.000000 0.645536 0.916954 
Employees 0.645536 1.000000 0.646855 
Taxes 0.916954 0.646855 1.000000 


Para visualizar la relación entre las variables de interés, se utiliza la función pairs 
para obtener los diagramas de dispersión para cada par de variables justo como lo 
muestra la figura 1.4. 
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Figura 1.2: Boxplot de las características de interés para cada comportamiento 
publicitario. 


La tabla 1.1. resume los parámetros de interés que, mediante una adecuada es- 
trategia de muestreo, se deben estimar para resolver el objetivo principal de la 
investigación. Si se desean estimaciones discriminadas por nivel industrial, enton- 
ces la tabla 1.2. da cuenta del valor de estos parámetros dentro de los subgrupos 
poblacionales. 


Consecuentemente, si se quieren estimaciones discriminadas por comportamiento 
publicitario, entonces la tabla 1.3. muestra el valor de cada uno de estos pará- 
metros. Por último, si se buscan estimaciones discriminadas tanto por comporta- 
miento publicitario cruzado con nivel industrial, entonces se cuenta con la tabla 
1.4. que resume dicha información. 


Tabla 1.1: Parámetros de la población. 


Ingreso Impuestos Empleados 

N total 2.396 2.396 2.396 
Suma 1.035.217 28.654 151.950 

Media 432 12 63 
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Figura 1.3: Histograma de las características de interés. 


Tabla 1.2: Parámetros de la población discriminados por nivel industrial. 


Ingreso Impuestos Empleados 

Nivel Grande  N total 83 83 83 
Suma 103.706 6.251 11.461 

Media 1.249 75 138 

Mediano  N total 737 737 737 

Suma 487.351 16.293 59.643 

Media 661 22 81 

Pequeño  N total 1.576 1.576 1.576 

Suma 444.160 6.110 80.846 

Media 282 4 51 
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Tabla 1.3: Parámetros de la población discriminados por comportamiento publici- 
tario. 


Ingreso Impuestos Empleados 


SPAM no N total 937 937 937 
Suma 397.952 10.593 59.600 

Media 425 11 64 

si N total 1.459 1.459 1.459 

Suma 637.265 18.061 92.350 

Media 437 12 63 


Tabla 1.4: Parámetros de la población discriminados por nivel industrial y por 
comportamiento publicitario. 


SPAM 
no si 

N total Suma Media  N total Suma Media 

Grande Ingreso 26 31.914 1.227 57 71.792 1.260 
Impuestos 26 1.844 71 57 4.4.07 77 

Empleados 26 3.587 138 57 7.874 138 

Mediano Ingreso 291 190.852 656 446 296.499 665 
Impuestos 291 6.322 22 446 9.971 22 

Empleados 291 23.745 82 446 35.898 80 

Pequeño Ingreso 620 175.186 283 956 268.974 281 
Impuestos 620 2.427 4 956 3.683 4 


Empleados 620 32.268 52 956 48.578 51 
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Figura 1.4: Relación entre las características de interés. 


Capítulo 2 


Muestras probabilísticas y 
estimadores 


La base matemática para el desarrollo del modelo de muestreo se encuen- 
tra en la teoría de la inferencia estadística y de manera más directa en la 
aplicación de los principios básicos de la teoría de probabilidad. Los resul- 
tados del modelo de muestreo sólo son válidos si se parte de la certeza 
de contar con una muestra que satisfaga las condiciones exigidas por la 
inferencia estadística. 


Leonardo Bautista (1998) 


2.1 Población y muestra aleatoria 


El proceso de estimación e inferencia en poblaciones finitas, que finalmente son las 
que fácilmente encontramos en la realidad y en las que se enfoca el muestreo, es muy 
diferente al proceso de inferencia de la estadística clásica. Esta última se trata a los 
valores observados como realizaciones de una variable aleatoria. En contravía con lo 
anterior, el muestreo asume que los valores observados corresponden a parámetros 
fijos poblacionales. Partiendo de este hecho formalicemos algunos conceptos que 
son de vital importancia en el estudio y análisis del muestreo. 


2.1.1 Población finita 


Definición 2.1.1. Una población finita es un conjunto de N elementos (e, €2,..., en). 
Cada unidad puede ser identificada sin ambigúedad por un conjunto de rótulos. 

Sea U = [1,2,..., NY el conjunto de rótulos de la población finita. El tamaño de 

la población no es necesariamente conocido. 


Es el conjunto de N, donde N < oo, unidades que conforman el universo de estudio. 
N es comúnmente llamado el tamaño poblacional. Cada elemento perteneciente a 
la población puede ser identificado por un rótulo. Sea U el conjunto de rótulos, tal 
que 
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Se utilizará el subíndice k para denotar la existencia física del k-ésimo elemento. 
Nótese que el tamaño de la población, N, no siempre es conocido y en algunas 
ocasiones el objetivo de la investigación es poder estimarlo. 


2.1.2 Muestra aleatoria 


Es un subconjunto de la población que ha sido extraído mediante un mecanismo 
estadístico de selección. Notaremos con una letra mayúscula S a la muestra aleato- 
rid']y con una letra minúscula s a una realización de la misma. De tal forma que, 
sin ambigúedad, una muestra seleccionada (realizada) es el conjunto de unidades 
pertenecientes a 


s=41l,...,k,.. .n(5)). 


El número de componentes de s es llamado el tamaño de muestra y no siempre 
es fijo. Es decir, en algunos casos n(S) es una cantidad aleatoria. El conjunto 
de todas las posibles muestras se conoce como soporte. Haciendo una analogía 
con la inferencia estadística clásica, el soporte generado por una muestra aleatoria 
corresponde al espacio muestral generado por una variable aleatoria. 


La anterior definición de muestra, en donde los elementos incluidos se listan dentro 
de un conjunto, corresponde a la forma clásica de notación. Sin embargo, una 
muestra también puede ser notada como un vector de tamaño NV. De esta manera, 
la k-ésima entrada del vector denotará el número de veces que el elemento fue 
incluido o seleccionado; si el valor es cero, indica que el elemento no fue incluido en 
la muestra seleccionada; si el valor es distinto de cero, indica que el elemento sí fue 
seleccionado. Aunque ambas formas de notación tienen la misma interpretación, 
para evitar confusiones, se denotará la muestra en forma de vector con una s en 
negrilla, mientras que la muestra en forma de conjunto se denotara con una s 
simple sin negrilla. A continuación se dan definiciones más precisas acerca de la 
muestra aleatoria con o sin reemplazo. 


Muestra aleatoria sin reemplazo 


Definición 2.1.2. Una muestra sin reemplazo se denota mediante un vector 
columna 
A IN (2.1.1) 


donde 


1 si el k-ésimo elemento pertenece a la muestra, 
Lx = (2.1.2) 
O en otro caso 


Una muestra aleatoria se dice sin reemplazo si la inclusión de cada uno de los 
elementos se hace entre los elementos que no han sido escogidos aún; de esta 


lNótese que S es una variable aleatoria. 
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manera el conjunto s nunca tendrá elementos repetidos. El tamaño de muestra 
corresponde a la cardinalidad de s. 


a(S)= 3 Le (2.1.3) 


keU 


Como n(S) no es una cantidad fija, es posible que ocurran uno de los siguientes 
escenarios: a) que la muestra no contenga a ningún elemento, entonces esta muestra 
se dice vacía; b) que la muestra contenga a todos los elementos de la población, 
esta muestra se conoce con el nombre de censo. 


Muestra aleatoria con reemplazo 


Definición 2.1.3. Una muestra con reemplazo se denota mediante un vector 
columna 


s= (n1,n2,..., ny) ENN (2.1.4) 


donde nz es el número de veces que el elemento k está en la muestra 


En algunos casos, por conveniencia del mecanismo de selección, el usuario prefiere 
tomar una muestra aleatoria con reemplazo si la inclusión de cada uno de los 
elementos tiene en cuenta a todos los elementos, ya sea que hayan sido escogidos 
para pertenecer en la muestra o no. De esta forma, el usuario puede seleccionar 
una muestra cuyo proceso de selección incluya a un individuo m veces (nótese que 
m puede ser mayor que N). Sin embargo, en una muestra aleatoria con reemplazo, 
dos o más componentes pueden ser idénticos. Un elemento que esté incluido más 
de una vez en s es llamado elemento repetido. 


En principio el tamaño de muestra está dado por 


n(S) =m= Y nz. (2.1.5) 


El número de elementos distintos en una muestra aleatoria S con reemplazo es 
llamado tamaño de muestra efectivo y con probabilidad uno es menor o igual 
aÑN. 


2.1.3 Soportes de muestreo 


En los próximos capítulos empezará el tratamiento particular para estrategias de 
muestreo específicas; es decir, diseños de muestreo que se ajustan a ciertas situa- 
ciones y estimadores que mejoran la eficiencia de la estrategia. Sin embargo, antes 
de proseguir, es necesario que el lector entienda que las estrategias de muestreo 
se definen en términos del tipo de muestreo que se utiliza para la selección de 
muestras. En general, existen dos distinciones básicas. 


1. Tipo de muestreo: selección de unidades con reemplazo o sin reemplazo. 


2. Tamaño de muestra: tamaño de muestra fijo o aleatorio. 
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Como se verá en los capítulos posteriores, dependiendo de las anteriores condicio- 
nes, se define la estrategia de muestreo, el tratamiento teórico para la estimación 
de parámetros y el tipo de soporte. Esta sección trata específicamente sobre las di- 
ferentes formas que puede tomar el soporte de un diseño de muestreo dependiendo 
de las dos distinciones básicas. Para entrar en materia, es necesario enunciar las 
siguientes definiciones. 


Definición 2.1.4. Un soporte (Q es un conjunto de muestras. 


Definición 2.1.5. Un soporte se llama simétrico si para cualquier s € Q, 
todas las permutaciones de s están también en Q. 


En los siguientes capítulos, a menos que se mencione lo contrario, el término so- 
porte hará referencia a un soporte simétrico. Algunos soportes simétricos par- 
ticulares son: 


e El soporte simétrico sin reemplazo definido como 
S=01 


Nótese que 
HS) = 2 
Por ejemplo, si N = 3, entonces $ queda definido por las siguientes muestras: 
S = (£(0,0,0), (1,0,0)', (0,0,1),(1,0,1)”, (0,1,0)”, (1,1,0),(0,1,1), (1,1, 


e El soporte simétrico sin reemplazo de tamaño fijo definido como 


5 (se a =0) 


keU 


(51) = (7) 


Por ejemplo, si N =3 y n = 2, entonces S,, queda definido por las siguientes 
muestras: 


Nótese que 


Sn == td, 0, 1), (1, 1, 0), (0, 1, vd 
e El soporte simétrico con reemplazo definido como 
R=N" 


donde N es el conjunto de los números naturales. Nótese que este soporte es 
un conjunto contable pero infinito, por tanto 


HR) = 00 


e El soporte simétrico con reemplazo de tamaño fijo definido como 


Ra = (ser Em m0] 


keU 
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Nótese que 


LR) = Ue 


m 


Por ejemplo, si N = 3 y m = 2, entonces Ry queda definido por las siguientes 
muestras: 


R=4(2,0,07(0,0,2710,2, 01 1,0,(1,0, 156,0, 111% 
Tillé (2006) afirma que geométricamente cada vector s representa el vértice de un 
N-cubo. Además, se tiene el siguiente resultado: 


Resultado 2.1.1. Para los soportes definidos anteriormente, se tienen las siguien- 
tes propiedades: 


Rh 


S,Sn, RR, Rm son soportes simétricos. 
SER. 
El conjunto [So,S1,..., Sy) es una partición de S. 


El conjunto [Ro,R1,...,Spy,...j es una partición infinita de R. 


HS A SS N 


S CR para todo n=0,1,...,N. 


Muestras probabilísticas 


No todas las muestras aleatorias son de tipo probabilístico. Una muestra (con o 
sin reemplazo) es de tipo probabilístico sí: 


e Es posible construir (o al menos definir teóricamente) un soporte Q, tal que 
Q = [81,...,8q,»--»SQ), de todas las muestras posibles obtenidas por un 
método de selección. En donde sy, q = 1,..., (QQ, es una muestra perteneciente 
al soporte Q. 


e Las probabilidades de selección que el proceso aleatorio le otorga a cada 
posible muestra perteneciente al soporte son conocidas de antemano a la 
selección de la muestra final. 


Nótese que una muestra al azar no necesariamente es una muestra probabilística. 
En la mala práctica, algunos investigadores utilizan métodos aleatorios de inclu- 
sión de elementos sin disponer de un marco de muestreo y sin cumplir las dos 
condiciones anteriores; de esta manera, aunque los elementos sean escogidos de 
manera aleatoria o al azar, la muestra resultante no se puede catalogar como una 
muestra probabilística. Desde aquí en adelante, a menos que se diga lo contrario, 
el término muestra se refiere a una muestra probabilística. Algunos comentarios 
de interés son: 


1. El universo U es finito. 


2. La muestra probabilística s puede contener objetos repetidos. Esto sucede 
cuando el procedimiento de muestreo es con reemplazo. 
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3. La muestra s con repeticiones, puede tener un tamaño mayor al de la pobla- 
ción. 


4. La muestra s sin repeticiones, puede tener un tamaño máximo igual a N. 


5. Si se presenta la ausencia del marco de muestreo es imposible realizar un 
procedimiento de muestreo probabilístico. Excepto cuando se realiza un cen- 
so. 


6. Si la muestra seleccionada no es de tipo probabilístico, entonces no se puede 
construir ninguna estimación de tipo estadístico. 


7. El estadístico deberá responder por los engaños o fraudes, que por ignorancia, 
mala fe o por la comodidad de mantener un empleo o negocio, para el cual 
no está capacitado, cometa contra clientes, ciudades y países que confían en 
la cifras resultantes de sus análisis. 


Ejemplo 2.1.1. Suponga una población finita de tamaño N = 5, en donde los in- 
tegrantes de la población están identificados cada uno con su nombre. La población 
la conforman los siguientes elementos: 


Yves, Ken, Erik, Sharon, y Leslie, 


En R se utiliza un vector de cadena de texto para indexar la población. Nótese 
que los elementos pertenecientes al vector son especificados mediante el uso de las 
comillas. En este caso los identificadores de cada elemento de la población, son 
asignados al objeto U. 


>U <- c("Yves", "Ken", "Erik", "Sharon", "Leslie") 
> Uli] 

[1] "Yves" 

> U[L2] 

[1] "Ken" 


Para obtener el soporte Q, de todas las posibles muestras de tamaño n = 2 
de esta población de tamaño N = 5, se utiliza la función Support del paquete 
TeachingSampling. Esta función contiene tres argumentos: el tamaño de la po- 
blación N, el tamaño fijo de cada una de las posibles muestras n y, por último, 
una característica y que puede ser de tipo numérico o puede ser un conjunto de 
rótulos, la salida de la función será un conjunto de datos conteniendo todas las 
posibles muestras de tamaño fijo. Cuando el argumento y es distinto de FALSE, el 
resultado de la función será la característica poblacional para cada individuo. En 
el siguiente ejemplo se utiliza la función Support (N,n,y=FALSE) para obtener el 
conjunto de posibles muestras de tamaño dos de la población U, mientras que la 
función Support(N,n,U) arroja el conjunto de los rótulos en cada una de las 10 
posibles muestras. 


> N <- length(U) 
> N 

[17 5 

>n<2 
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> Support(N,n) > Support(N,n,U) 
[,1] [,2] [,1] [,2] 
[1,] 1 2 [1,] "Yves" "Ken" 
[2,] 1 3 [2,] "Yves" "Erik" 
ES] 1 4 [3,] "Yves" "Sharon" 
[4,] 1 5 [4,] "Yves" "Leslie" 
[5,] 2 3 [5,] "Ken" "Erik" 
[6,] 2 4 [6,] "Ken" "Sharon" 
[7,] 2 5 [7,] "Ken" "Leslie" 
[8,] 3 4 [8,] "Erik" "Sharon" 
[9,] 3 5 [9,] "Erik" "Leslie" 
[10,1 4 5 [10,] "Sharon" "Leslie" 


2.1.4 Diseño de muestreo 


Definición 2.1.6. Un diseño de muestreo p(-) es una distribución de probabi- 
lidad multivariante definida sobre un soporte (2; es decir, p(-) es una función que 
va desde Q] hasta (0, 1] tal que p(s) > 0 para todo s € Q y 


S p(s)=1 (2.1.6) 


seQ 


Dado el soporte Q, un diseño de muestreo es una función p(+), tal que p(s) 
arroja la probabilidad de selección de la muestra realizada s bajo un esquema de 
selección particular. En otras palabras, si S es una muestra aleatoria que toma el 
valor s con probabilidad p(s), tal que 


Pr(S =$) = p(s) para todo s € Q. (2.1.7) 


Entonces p(+) es llamada diseño de muestreo. 


El diseño muestreo, es una función que va desde el soporte Q hasta el intervalo 
JO, 1]. Por ser una distribución de probabilidad se tiene que p(-) cumple que 


1. p(s) > 0 para todo s € Q 


2. Eb p(s) =1 


Nótese que el diseño de muestreo no se refiere a un algoritmo o procedimiento 
que permite la selección de muestras. Dado un diseño de muestreo, el trabajo del 
estadístico consiste en encontrar un algoritmo que permita la selección de mues- 
tras cuya probabilidad de selección corresponda a la probabilidad inducida por el 
diseño de muestreo. Para la realización de inferencias acerca de los parámetros de 
interés, el diseño de muestreo juega un papel muy importante porque las propie- 
dades estadísticas (esperanza, varianza y otros) de las cantidades aleatorias que se 
calculan basadas en una muestra están determinadas por éste. 


Dado un soporte Q, un diseño de muestreo puede ser: 


2Nótese que Q es el espacio muestral cuyos elementos son vectores. 
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e Sin reemplazo si todas las posibles muestras en (Y son sin reemplazo. 
e Con reemplazo si todas las posibles muestras en (2 son con reemplazo. 


e De tamaño fijo si todas las posibles muestras en Q tienen el mismo tamaño 
de muestra n(S) =n. 


Cassel, Sárndal £ Wretman (1976a) explican que la posibilidad de identificar cada 
una de todas las posibles muestras que pertenecen al soporte Q es un factor crucial 
que permite: 


e designar un conjunto de muestras a las cuales se les asigna una probabilidad 
positiva de selección y 


e distribuir la totalidad de la masa de probabilidad entre los miembros de Q. 


El rasgo más importante del muestreo probabilístico es que permite conocer, por 
lo menos teóricamente, la probabilidad de selección de todas las posibles muestras 
en el soporte Q. Sin embargo, un diseño de muestreo también deja conocer la 
probabilidad de inclusión del elemento k en la muestra £S. 


Algoritmo de selección 


Un diseño de muestreo es una distribución de probabilidad sobre un soporte (Q; 
pero, de ninguna manera, es un procedimiento que selecciona la muestra per se. 


Definición 2.1.7. Un algoritmo de selección es un procedimiento usado para 
seleccionar una muestra probabilística. 


Tillé (2006) afirma que una forma de seleccionar una muestra es listar todas las 
posibles muestras, generar una variable aleatoria con distribución uniforme en 
el intervalo [0,1] para luego hacer la correspondiente selección. A este tipo de 
algoritmos que listan todas las posibles muestras se les conoce con el nombre de 
algoritmos de selección enumerativos; sin embargo, este tipo de algoritmos 
son ineficientes computacionalmente y sólo son posibles de implementar cuando el 
diseño de muestreo es conocido y el tamaño poblacional N es pequeño. A lo largo 
del libro se incluirán diversos algoritmos de selección específicos para cada diseño 
de muestreo que permitan la selección de una muestra probabilística. 


2.1.5 Probabilidad de inclusión 


La inclusión del elemento k-ésimo en una muestra s particular es un evento alea- 
torio definido por la función indicadora fy(s), que está dada por 


Ip (s) = lo A a : A (2.1.8) 


Nótese que la función fy(s) es una función de la variable aleatoria S. Para acortar 
la notación escribiremos 7; = [x(s), entendiéndose que 1, es la función indicadora 
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para el elemento k-ésimo. Bajo un diseño de muestreo p(-), una probabilidad de 
inclusión es asignada a cada elemento de la población para indicar la probabili- 
dad de que el elemento pertenezca a la muestra. Para el elemento k-ésimo de la 
población, la probabilidad de inclusión se denota como Tk y se conoce como la 
probabilidad de inclusión de primer orden y está dada por 


Tr = Pr(k € S) = Pr(1, =1) = Y p(s). (2.1.9) 
s>3k 


En donde el subíndice s > k se refiere a la suma sobre todas las muestras que 
contienen al elemento k-ésimo. Nótese que de la anterior definición para que una 
muestra sea considerada probabilística, entonces todos los elementos en la pobla- 
ción deben tener probabilidad de inclusión estrictamente mayor a cero. 


Definición 2.1.8. La esperanza de una muestra aleatoria, en el sentido de las 
definiciones 2.1.2. y 2.1.3., está dada por 


u = E(s) = Y p(s)s (2.1.10) 


seQ 


Si el diseño muestral es sin reemplazo, entonces 4 = rr, donde Tr = (71,..., TN) 
es el vector de probabilidades de inclusión inducido por el diseño de muestreo. El 
siguiente resultado provee una manera sencilla para computar y realizar el cálculo 
de las N probabilidades de inclusión. 


Resultado 2.1.2. Dado un soporte Q, la probabilidad de inclusión Tr; es la proba- 
bilidad de que el elemento k-ésimo pertenezca a la muestra aleatoria S y se puede 
escribir de la siguiente manera: 


mm = E(1,(S)) = Y I,(s)p(s) (2.1.11) 


Prueba. I;(S) es una función de la muestra aleatoria S, la demostración se sigue 
de la definición de la esperanza de una función de una variable aleatoria. Por otro 
lado, I;(S) sólo puede tomar dos valores 1 y 0, luego 


E(l(5)) = (1) Pr(Ux(S) = 1) + (0) Pr(1, (5) =0) 
= Pr(Lp (5) = 1) = Pr(k € S) = Tx 


Análogamente, Ty se conoce como la probabilidad de inclusión de segundo orden 
y denota la probabilidad de que los elementos k y l pertenezcan a la muestra, ésta 
se denota como TÍ y está dada por 


Tu =Pr(keSyleS)=Pr(=1)= Y pls). (2.1.12) 
sakyl 


En donde el subíndice s > k y l se refiere a la suma sobre todas las muestras que 
contienen a los elementos k-ésimo y l-ésimo. 
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Ejemplo 2.1.2. Considere el siguiente diseño de muestreo p(-) tal que asigna las 
siguientes probabilidades de selección a cada una de las 10 posibles muestras de 
tamaño 2 del soporte Q de la población U. 


> p < c(0.13,0.2,0.15,0.1,0.15,0.04,0.02,0.06,0.07,0.08) 
> Pp 
[1] 0.13 0.15 0.15 0.10 0.15 0.04 0.02 0.06 0.07 0.08 


Es decir, la primera muestra tiene una probabilidad de selección de 0.13, la segunda 
muestra tiene una probabilidad de selección de 0.15, y así sucesivamente hasta la 
décima cuya probabilidad de selección es de 0.08. Con las siguientes instrucciones 
verificamos que las propiedades de diseño muestral sean satisfechas. 


> sum(p) 
[11 1 


> p<0 
FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE 


Mediante el uso de la función Ik del paquete TeachingSampling, es posible crear 
las N = 5 funciones indicadoras de los elementos pertenecientes a la población 
para cada una de las 10 posibles muestras de tamaño fijo y sin reemplazo. Esta 
función contiene dos argumentos: el tamaño de la población N, el tamaño fijo de 
cada una de las posibles muestras n. Una tabla de datos es creada a partir de los 
rótulos, la probabilidad de selección y las 5 funciones indicadoras de las posibles 
muestras contenidas en el soporte Q. 


> Ind <- Ik(N,n) 
> Q <- Support(N,n,U) 


> data.frame(Q,p,Ind) 


vi v2 p 11 12 13 14 15 
1 Yves Ken 0.13 110050 
2 Yves Erik 0.20 101.00 
3 Yves Sharon 0.15 10.01 0 
4 Yves Leslie 0.10 10001 
5 Ken Erik 0.15 01100 
6 Ken Sharon 0.04 0101 0 
7 Ken Leslie 0.02 0100 s1 
8 Erik Sharon 0.06 0.00 110 
9 Erik Leslie 0.07 0.0101 
10 Sharon Leslie 0.08 0.0.0 1 s1 


Una vez son calculadas las variables indicadoras para cada elemento y en cada 
posible muestra, el cálculo de las probabilidades de inclusión se hace muy sencillo 
al multiplicar las probabilidades de selección con cada una de las variables indi- 
cadoras. El resultado se suma por columnas y la salida es un vector de tamaño 
N =5 de probabilidades de inclusión. 
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> multip <- p*Ind 
> colSums (multip) 
[1] 0.58 0.34 0.48 0.33 0.27 


La función Pik del paquete TeachingSampling arroja el vector de probabilidades 
de inclusión para todos los elementos de la población. Ésta tiene dos argumentos: 
un vector p de probabilidades de selección de todas las posibles muestras y una 
matriz Ind de N variables indicadoras. Nótese que la suma de probabilidades de 
inclusión es el tamaño de muestra esperado, en este caso igual a 2. 


> pik <- Pik(p, Ind) 
> pix 
[1] 0.58 0.34 0.48 0.33 0.27 


Luego, el elemento de la población que tiene una mayor probabilidad de ser in- 
cluido es Yves, mientras que el elemento con una menor probabilidad de inclu- 
sión es Sharon. Por otra parte, haciendo uso de la función Pik1 del paquete 
TeachingSampling es posible calcular la matriz de probabilidades de inclusión de 
segundo orden para el diseño p en cuestión. Esta función sólo tiene tres argumen- 
tos: N, el tamaño de la población, n, el tamaño de muestra fijo y p, el diseño de 
muestreo utilizado. La salida de esta función es una matriz cuadrada y simétrica 
de tamaño N x N cuyas entradas corresponden a las probabilidades de inclusión 
de segundo orden. Para este caso particular tenemos que la función se ejecuta de 
la siguiente manera. 


> pikl <- Pik1(N, n, p) 


> pikl 

[,1] [,21 [,3] [,4] [,5] 
[1,] 0.58 0.13 0.20 0.15 0.10 
[2,] 0.13 0.34 0.15 0.04 0.02 
[3,] 0.20 0.15 0.48 0.06 0.07 
[4,] 0.15 0.04 0.06 0.33 0.08 
[5,] 0.10 0.02 0.07 0.08 0.27 


Nótese que, bajo este diseño de muestreo, Yves y Erik corresponden al par de 
elementos que tienen la más alta probabilidad de inclusión. 


2.1.6 Característica de interés y parámetros de interés 


El propósito de cualquier estudio por muestreo es estudiar una característica de 
interés y que se encuentra asociada a cada unidad de la población. Es decir, la 
característica de interés toma el valor y, para la unidad k. Es importante notar 
que los ys no se consideran variables aleatorias sino cantidades fijas, por tanto la 
notación de éstas se hace con un letra minúscula y. El objetivo de la investigación 
por muestreo es estimar una función de interés T', llamada parámetro, de la 
característica de interés en la población. 


T= flY1,-.-.Yh,--- YN). 


Algunos de los parámetros de interés más comunes son: 
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1. El total poblacional, 


DON (2.1.13) 


keU 


2. La media poblacional, 


cu Uk ty 
ju = EE UPA Y 2.1.14 
YU N N ( ) 


3. La varianza poblacional, 


neu (yr — Gu)” 
Sy = NT : (2.1.15) 


Existen otros parámetros de interés como la mediana poblacional, los percentiles 
poblaciones, la razón entre dos totales poblacionales o, como se mencionó ante- 
riormente, el tamaño de una población, en cuyo caso estaríamos interesados en N. 
Entre otros, algunos ejemplos de investigaciones por muestreo interesadas en los 
anteriores parámetros son: 


e Total de personas que pertenecen a la fuerza laboral. 


e Porcentaje de personas que usarían un producto. 


Obviamente, estas cantidades poblacionales son desconocidas y ésta es la razón 
por la que se requiere realizar una investigación por muestreo, porque mediante 
ésta se pueden estimar estos parámetros poblacionales a partir de una muestra 
seleccionada. 


Ejemplo 2.1.3. Suponga que en nuestra población de ejemplo se quiere estimar 
el total de la variable y. El valor para cada uno de los elementos de la población 
es el siguiente: 


> y <- c(32,34,46,89,35) 


> y 
[1] 32 34 46 89 35 


La función data. frame crea el conjunto de datos conteniendo los nombres (rótulos) 
y el valor de la característica de interés para cada elemento de la población 


> data.frame(U,y) 


U y 
1 Yves 32 
2 Ken 34 
3 Erik 46 
4 Sharon 89 
5 Leslie 35 


Algunos parámetros poblacionales de interés de la característica y son, el total 
poblacional y la media dados por ty y Yu, respectivamente. 
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> ty <  sum(y) 
> ty 

[1] 236 

> ybar <- ty/N 
> ybar 

[1] 47.2 


2.1.7 Estadística y estimador 


Una estadística es una función G (que toma valores reales) de la muestra aleatoria 
S y sólo depende de los elementos pertenecientes a S. Cuando una estadística se 
usa para estimar un parámetro se dice estimador y las realizaciones del estimador 
en una muestra seleccionada s se dicen estimaciones. 


Siendo G una estadística, sus propiedades estadísticas están determinadas por el 
diseño de muestreo. Es decir, dada la probabilidad de selección de cada muestra 
s € Q, la esperanza, la varianza y otras propiedades de interés están definidas a 
partir de p(s). 


La esperanza de una estadística G es 


E(G) = > p(s)G(s). (2.1.16) 


seQ 


La varianza de la estadística G está definida como 


Var(G) = E[G — E(G) (2.1.17) 
= ) »(s)[G(s) - E(G)P. (2.1.18) 
seQ 


Donde G(s) es el valor real que toma la estadística Gen la muestra seleccionada 
(realizada) s y Q es el soporte inducido por el diseño muestral. Nótese que las pro- 
piedades de las estadísticas y, por consiguiente, de los estimadores, están definidas 
con sumas porque el diseño de muestreo induce una distribución de probabilidad 
discreta sobre todas las posibles muestras s pertenecientes al soporte Q. 


La estadística ly 


La cantidad 1; dada por (2.1.8) es una estadística que toma valores aleatoriamente 
dependiendo del diseño de muestreo utilizado. 


Resultado 2.1.3. Las propiedades más importantes de esta estadística son: 
o E(ly) = Tk 
e Var(I;) = Tre(l 7 Tk) 


. Coví(Iy, 11) = Tkl — TT] para todo k Á l 


34 2. Muestras probabilísticas y estimadores 


Prueba. Por el resultado 2.1.2., la primera propiedad se tiene de inmediato, ahora 
de la definición de varianza se tiene 


Var(1.(5)) = ElT, (5) — E(1:(5)1? 
= Pr(1(S) = 1)11 — ra]? + Pr(1,(S) = 0)[0 — rra]? 
= Tre (1 = Tk) 
y finalmente, de la definición de covarianza se tiene 
Cov(Ix(5), 1(5)) = El (5)1(5)) — El (5) E[1:(5)) 
= (DPYULSIL(S) = 1) + (0)PHULES)L(S) = 0) — gr; 
= Tp — TT 
] 
A la covarianza de las estadísticas indicadoras para los elementos k y 1, Cov(Ig, 1), 


se le conoce como Ag. Esta cantidad, dependiendo del diseño, puede tomar valores 
positivos, negativos o incluso nulos. 


La estadística n(S) o tamaño de muestra 
Como ya se vio, el tamaño de muestra es una cantidad aleatoria, dependiendo del 


diseño. Nótese que este valor puede ser expresado como función de las estadísticas 
de inclusión. 


n(s) = YT. (2.1.19) 
U 
Resultado 2.1.4. Algunas propiedades de interés son: 


e Eln(S)) = y Tr 
e Var(n(S)) = y Tk — Oy mM) + Y Tal 


Prueba. Para la primera propiedad, se tiene que 
En] -Esm= En 
U U U 
Recordando que las propiedades de la varianza de una suma se tiene 
2h 
U 
=> Varl[I,] + Y Y Covlts, 11] 
U 


Eln(S)] = E 


Var[n(S)] = Var 


kAl 
=> m-) 1), mm+) mu 
U U kAl k4l 
2 
-En-(En) + Y me 
U U kAl 
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Además, cuando la variación del tamaño de muestra es nula porque se ha decidido 
utilizar un diseño de tamaño muestral fijo, se tienen las siguientes propiedades. 


Resultado 2.1.5. Si el diseño de muestreo es de tamaño fijo e igual a n, 
e En(S) =Nyrr=n 
o Pe. Tk = NT] 
e y An =0 
0 Tre (1 = Tk) = ia (MTI = Tk1) 


Prueba. La primera propiedad se tiene recordando que la esperanza de una cons- 
tante es ella misma. Nótese que Try = Ell(S)1,(S)), así 


Y ru = Y EM (S)15)] => p(s)Ie(s)T(s) 


leU leU leU seQ 
= Y pl9)1ata) 18) 
seQ leU 
=n(S) y p(s)Ly(s) =nrx 
seQ 


La tercera propiedad se tiene pues 


Y Aja = Y (m1 — Ter) 
U U 
= Y ma — mi Y) m 
U U 


= NT — NT =0 


Para demostrar la última propiedad es necesario redefinir el tamaño de muestra, 
de tal manera que n => ¿4 1U(9) + 1; (5). Luego, 


Tre(l — rx) = Var(Ig(5S)) 
= Cov(14 (5), 1, (5)) 


= Cov | 14(S),n— Y 1(S) 


LAk 
=-— Y Cov(1y(S), 11(S)) 
lAk 
= S (mm — Tp) 
Ak 


Ejemplo 2.1.4. Continuando con el desarrollo del ejemplo 2.1.3, ahora utiliza- 
remos el vector de probabilidades de inclusión y la matriz de probabilidades de 
segundo orden para verificar los resultados 2.1.4 y 2.1.5. En primer lugar, nótese 
que la esperanza del tamaño de muestra, que corresponde a 2 pues el diseño es de 
tamaño fijo, se obtiene de la siguiente manera. 
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> A <- sum(pik) 
>A 
[1] 2 


Ahora, el cuadrado de la suma de las probabilidades de inclusión se obtiene así 


> B<- (sum(pik))72 
> B 
[17 4 


Y la suma de los elementos distintos de la matriz de probabilidades de inclusión 
de segundo orden es 


> C <- sum(pik1)-sum(diag(pikl1)) 
>C 
[1] 2 


Para comprobar la segunda parte del resultado 2.1.4. basta realizar la siguiente 
operación A-B+C. Esta suma es nula y efectivamente corresponde a la varianza del 
tamaño de muestra en este diseño de muestreo; como, en este caso particular, el 
tamaño de muestra siempre fue fijo e igual a 2, la varianza debe ser cero. 


El siguiente paso de este ejemplo consiste en la verificación de la segunda parte 
del resultado 2.1.5. En resumidas cuentas, este apartado dice que la suma por filas 
(o columnas) de la matriz de probabilidades de inclusión de segundo orden debe 
corresponder exactamente a la multiplicación del tamaño de muestra y el vector de 
probabilidades de inclusión de primer orden. Lo anterior se corrobora fácilmente 
por medio del siguiente código. 


> n*xpik 

[,11 [,21 [,3]1 [,4] [,5] 
[1,] 1.16 0.68 0.96 0.66 0.54 
> colSums (pikl1) 
[1] 1.16 0.68 0.96 0.66 0.54 
> rowSums (pik1) 
[1] 1.16 0.68 0.96 0.66 0.54 


Nótese que la suma por filas y por columnas coincide perfectamente con n X Tk 
para todo k € U. Por otro lado, verificaremos la tercera propiedad que afirma 
que la suma por filas (o columnnas) de la matriz de varianzas-covarianzas de las 
variables indicadoras de membresía muestral debe dar como resultado un vector 
de ceros de tamaño cinco. Para esto, se utiliza la función Deltak1 del paquete 
TeachingSampling. Esta función tiene tres argumentos: N, el tamaño de la pobla- 
ción, n, el tamaño de muestra fijo y p, el diseño de muestreo utilizado. La salida 
de esta función corresponde a una matriz cuadrada y simétrica de tamaño N x N 
cuyas entradas corresponden a las varianzas-covarianzas de las variables indica- 
doras de membresía muestral. Para este ejemplo, la implementación del siguiente 
código permite obtener la matriz buscada y la verificación del resultado. 


> Delta <- Deltak1(N, n, p) 
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> Delta 


[,1] [,2] [,3] [,4] [,5] 
[1,] 0.2436 -0.0672 -0.0784 -0.0414 -0.0566 
[2,] -0.0672 0.2244 -0.0132 -0.0722 -0.0718 
[3,] -0.0784 -0.0132 0.2496 -0.0984 -0.0596 
[4,] -0.0414 -0.0722 -0.0984 0.2211 -0.0091 
[5,] -0.0566 -0.0718 -0.0596 -0.0091 0.1971 


> rowSums (Delta) 
(110 0 0 0. 0 
> colSums (Delta) 
4Jo 0 0 0 0 


De esta manera la suma por filas (o columnas) de la matriz de varianzas-covarianzas 
de las variables indicadoras de membresía muestral es cero en cada columna (o fila). 


Cuando una estadística se construye con la intención de estimar un parámetro, 
recibe el nombre de estimador. Así, las propiedades más comúnmente utilizadas 
de un estimador T' de un parámetro de interés T' son el sesgo, definido por 


B(Í) =E(T) -T (2.1.20) 


y el error cuadrático medio, dado por 


ECM(Í) = E[T - TI? (2.1.21) 
=Var(T) + BUT). (2.1.22) 


Si el sesgo de un estimador es nulo se dice que el estimador es insesgado y cuando 
esto ocurre el error cuadrático medio se convierte en la varianza del estimador. 


Sárndal, Swensson € Wretman (1992) afirman que el objetivo en un estudio por 
muestreo es estimar uno a más parámetros poblacionales. Las decisiones más im- 
portantes a la hora de abordar un problema de estimación por muestreo son 


e La escogencia de un diseño de muestreo y un algoritmo de selección que 
permita implementar el diseño. 


e La elección de una fórmula matemática o estimador que calcule una estima- 
ción del parámetro de interés en la muestra seleccionada. 


Las anteriores no son decisiones independientes. Es decir, la escogencia de un 
estimador dependerá, usualmente, del diseño de muestreo utilizado. 


Definición 2.1.9. Siendo T' un estimador de un parámetro T' y p(-) un diseño 
de muestreo definido sobre un soporte (Y, se define una estrategia de muestreo 
como la dupla (p(-), T). 
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Este libro, como su nombre lo indica, está enfocado en la búsqueda de la mejor 
combinación de diseño de muestreo y estimador; este problema ha sido considerado 
a través del desarrollo de la teoría de muestreo. La escogencia de la estrategia de 
muestreo se lleva a cabo en dos etapas, a saber: Etapa de diseño, refiriéndose 
al periodo durante el cual se decide el diseño de muestreo a utilizar junto con 
el algoritmo de muestreo que permita la selección de la muestra y finalmente se 
selecciona la muestra probabilística. Una vez que la información es recogida y 
grabada entra la Etapa de estimación en donde se calculan las estimaciones 
para la característica de interés utilizando el estimador propio de la estrategia de 
muestreo escogida. 


2.2 Estimadores de muestreo 


Cada elemento perteneciente a la población tiene una característica de interés 
asociada y. Para el elemento k-ésimo el valor que toma esta característica de 
interés es yz. El objetivo de la investigación por muestreo es estimar un parámetro 
T' que resulta de interés. El objetivo del estadístico es poder inferir acerca de T' 
con base en una muestra s. Un indicador de la precisión de un estimador está dado 
por el coeficiente de variación estimado dado por 


cue(Í”) = YAA (2.2.1) 


donde Var(Í) es el estimador de la varianza basado en la muestra seleccionada s. 
El coeficiente de variación estimado es una medida comúnmente usada para expre- 
sar el error cometido al seleccionar una muestra y ni utilizar a toda la población 
en la medición de la variable de interés. Si se realizara un censo y el estimador 
reprodujera el parámetro poblacional, entonces Var(T) sería nula y, por lo tanto, 
el cve también sería nulo. 


A continuación, se revisan algunos de los estimados más utilizados en la historia 
del muestreo. A medida que se avance en la lectura del libro, nuevos estimadores 
surgirán y, por consiguiente, nuevas estrategias de muestreo que permiten llegar a 
resultados con una precisión casi clínica. La mayoría de los estimadores presentados 
en este libro son estimadores de totales o de funciones de totales. 


2.2.1 El estimador de Horvitz-Thompson 
Estimador del total poblacional 


Narain (1951) descubrió este estimador, aunque su artículo fue editado y publicado 
por una revista india de poca rotación. Más adelante Horvitz dz Thompson (1952) 
publicaron similares resultados en la revista más importante de estadística en 
ese tiempo, JASA (Journal of the American Statistical Society). Desde entonces, 
este estimador se conoce como el estimador de Horvitz-Thompson o estimador T, 
aunque rigurosamente debería ser llamado estimador de Narain-Horvitz-Thompson 
. En este libro seguiremos la notación internacional y clásica. 
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Para un universo U, se quiere estimar el total poblacional t,, de la característica 
de interés y dado por (2.1.13). Se define el estimador de Horvitz-Thompson(HT) 
para t, como: 


tun = Y) E = Y di (2.2.2) 
Ss Ss 


Donde Tr; es la probabilidad de inclusión para el k-ésimo elemento, y dj es co- 
nocido como factor de expansión y corresponde al inverso de la probabilidad 
de inclusión. Nótese que el estimador de Horvitz-Thompson es aleatorio porque 
está construido con base en una suma sobre la muestra aleatoria S. La motivación 
detrás de este estimador, como Brewer (2002) lo indica, descansa en el principio 
de representatividad que afirma que cada elemento incluido en una muestra se 
representa a sí mismo y a un grupo de unidades que no pertenecen a la muestra 
seleccionada, cuyas características son cercanas a las del elemento incluido en la 
muestra. El factor de expansión no es otra cosa que el número de elementos menos 
uno de la población (no incluidos en la muestra) representados por el elemento 
incluido. 


Resultado 2.2.1. Si todas las probabilidades de inclusión de primer orden son 
mayores a cero (rr > 0 para todo k), el estimador de Horvitz-Thompson es inses- 
gado para el total poblacional. Por tanto, se tiene que 


Ellun) =ty (2.2.3) 


Prueba. Reescribiendo el estimador de Horvitz-Thompson como ty = Ys Ip(S) oi 
se tiene 


Eltyn) = E (E msi) = Y FE (118) = Nm =ty 
U Tk U Tk 


U 


Si el diseño de muestreo es tal que las probabilidades de inclusión de primer orden 
conservan una buena correlación positiva con la medición de la característica de 
interés; en otras palabras, si mi X yz, el estimador de Horvitz-Thompson se reduce 
a una constante, por lo tanto tendrá varianza nula. En la práctica, una estrategia 
de muestreo óptima (Cassel, Sárndal dz Wretman 1976a) es aquella que utiliza el 
estimador de Horvitz-Thompson junto con un diseño de muestreo que induzca una 
buena correlación entre el vector de probabilidades de inclusión y el vector de va- 
lores de la característica de interés. Sin embargo, en encuestas multi-propósito, en 
donde se quiere estimar parámetros para varias características de interés entre las 
cuales no hay una buena correlación, al utilizar el estimador de Horvitz-Thompson 
es difícil evadir la débil, e incluso negativa, correlación que existe entre las carac- 
terísticas de interés y el vector de probabilidades de inclusión. Sin embargo, al 
incluir información auxiliar en la construcción del estimador se puede palear este 
hecho. 
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Varianza del estimador de Horvitz-Thompson 


Resultado 2.2.2. La varianza del estimador de Horvitz-Thompson está dada por 
la siguiente expresión 
Vari(tyr) = Y 25 (2.2.4) 


Prueba. De la definición de varianza, se obtiene lo siguiente 


Var: (t,, = Var (Eno Tr (S -) 


= Y Earl LS) +7 EARL 7, Cov(Ix(5), 1(5)) 
U 


Tk o 
2 
k Yi 
=Y El (Ty — TÉ) +) A yy — mom) 
Tk Ti 
U kAl 


Sen (1953) y Yates dz Grundy (1953) dedujeron el siguiente resultado cuando el 
diseño de muestreo es de tamaño fijo. 


Resultado 2.2.3. Si el diseño p(-) es de tamaño de muestra fijo, entonces, la 
varianza del estimador de Horvitz-T'hompson se escribe como 


2 
Yk Y 

Varaliya) =-5Y Las (2-2) (22.5) 

Prueba. Utilizando las propiedades del resultado 2.1.5, se tiene que 
A ll Y YI 
Varz2[ty,m) 223224 (Y - 2) 
1 UE, YE y YR YN 
a 


TÉ TI 


3 Ea aa 
Ana na] 
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e 
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puesto que >; Aza = O para diseños de tamaño fijo. Por lo tanto, en los casos 
de diseños de muestreo con tamaño fijo, la varianza del estimador de Horvitz- 
Thompson puede calcularse por medio de Var2(t, -r). A 


Estimación de la varianza 


Es posible construir dos estimadores insesgados para las expresiones y 
(2.2.5). Para esto, se requiere que todas las probabilidades de ld Se se- 
gundo orden sean estrictamente positivas (Ty > O para todo k). Con el anterior 
supuesto, se tienen los siguientes resultados. 


Resultado 2.2.4. Un estimador insesgado para la expresión (2.2.4) está dada por 


Ai Yk Y 
=mz AA 
Var, (t => 2 e (2.2.6) 


Resultado 2.2.5. Si el diseño es de tamaño de muestra fijo, un estimador inses- 
gado para la expresión (2.2.5) está dado por 


Aj (Ye YN 
Var =-? 2 0 
ara(t Bo >. (E E (2.2.7) 


Prueba. Los anteriores resultados son inmediatos al reescribir los estimadores 
Var, (t yr) y Vara(t y”) en términos de U y multiplicar por el producto de las fun- 
ciones indicadoras 1, (5)1,(5). Al aplicar la esperanza se tiene que EL (5) 11(5)] = 
Ti y con esto se tiene la demostración. 


Bautista (1998) resalta los tres siguientes comentarios importantes acerca de las 
estimaciones arrojadas por anteriores expresiones. 


1. Si las probabilidades de inclusión de segundo orden son mayores que cero 
para todos los elementos en la muestra, pero no para los restantes elementos 
que no fueron incluidos en la muestra, no se puede garantizar el insesgamiento 
de las anteriores expresiones. 


2. Es posible que las estimaciones de la varianza arrojen resultados negativos, 
que no pueden ser utilizados ni interpretados. Para evitar esta situación, es 
necesario garantizar que la covarianza entre las estadísticas de inclusión para 
cada par de elementos en la población sea negativa (Ag <0Wk XI). 


3. No necesariamente las estimaciones arrojadas por las anteriores expresiones 
coinciden en todos los casos. 


Por su parte, Tillé (2006) agrega que en la práctica, la utilización de las expresiones 
de los estimadores de la varianza es muy difícil de implementar pues la doble suma 
hace que el proceso de cálculo computacional sea muy largo e ineficiente. Por lo 
tanto, para cada diseño de muestreo que se utilice, se deben crear expresiones que 
pueden ser simplificadas o en algunos casos se deben utilizar aproximaciones. 
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Intervalo de confianza para el estimador de Horvitz-Thompson 


Hájek (1960) demuestra la convergencia asintótica del estimador de Horvitz-Thomp- 
son a una distribución normal. Cuando el tamaño de muestra es suficientemente 
grande (que dependiendo del comportamiento de la población puede bastar con 
algunas docenas de individuos), se puede construir un intervalo de confianza de 
nivel (1 — a) para el total poblacional t, de acuerdo con: 


IC(1-0)= to. — 21-aj2y/ Varltyr), Ey + 21-0/2V) Var(bya)| (2.2.8) 


donde 21-a/2 se refiere al cuantil (1 — 0/2) de una variable aleatoria con distribu- 
ción normal estándar. Nótese que 


l=a= > ps), 


Qo0Ds 


donde Qp es el conjunto de todas las posible muestras cuyo intervalo de confianza 
contiene al total poblacional t,. En la práctica muy pocas veces se conoce la 
varianza del estimador; por lo tanto, el intervalo de confianza estimado de nivel 
(1 — a) puede ser obtenido con los datos de la muestra seleccionada reemplazando 
en la varianza del estimador por su correspondiente estimación y tomaría 
la siguiente expresión 


IC.(1-a)= La. 24004) Varlinnl bun dt ar-aja y Vartiyo)| (2.2.9) 


Al utilizar una estrategia de muestreo en la estimación de un parámetro en pobla- 
ciones finitas, las propiedades de la estrategia se estudian en términos de: 


e Confiabilidad: definida como la suma de las probabilidades de las muestras 
cuyo intervalo de confianza contiene al parámetro. 


e Precisión: definida como la longitud del intervalo de confianza. 


Nótese que las anteriores propiedades están en función del intervalo de confianza. 
Para determinar la confiabilidad se debe conocer al parámetro T' (desconocido) por 
tanto, en términos prácticos la confiabilidad no se puede calcular. Para determinar 
la precisión y la confiabilidad se requiere conocer la varianza, basada en el diseño 
de muestreo, del estimador utilizado, digamos T; sin embargo, el cálculo de esta 
varianza Var(Í) implica, casi siempre, el requerimiento de conocer los valores yx 
para todo k = 1,..., N. Luego la precisión tampoco se puede calcular. Sin embargo 
se debe proponer un estimador de Var(T) (ojalá insesgado) que junto con T 
proporción una cota para el sesgo y para la precisión. 


Estimación de otros parámetros 


Aunque (2.2.2) es un estimador del total poblacional de la característica de in- 
terés, se puede utilizar para estimar otras cantidades poblacionales de interés. Si 
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el tamaño poblacional N es conocido, la media poblacional definida en (2.1.14) 
puede ser estimada con el estimador de Horvitz-Thompson. 


Resultado 2.2.6. La media poblacional es estimada insesgadamente mediante el 
uso de la siguiente expresión 


O O Yk 
n= 5 (yr) = 5 a . (2.2.10) 


La varianza y la varianza estimada del estimador de la media poblacional están 
dadas por 


Var(ún) = +Var(ty.r) (2.2.11) 


Var(%x) = >Varltyn) (2.2.12) 


respectivamente, 


Sin embargo, es la regla más que la excepción que en la mayoría de casos en donde 
el usuario se enfrenta a una investigación cuyos objetivos están supeditados a la 
realización de un estudio por muestreo que el tamaño poblacional sea desconoci- 
do. En tal caso, podemos usar el estimador de Horvitz-Thompson para estimarlo 
puesto que N puede ser escrito de la siguiente manera 


N=>3 1 (29:18) 
U 


tomando la conocida forma de un total poblacional. Luego, tenemos el siguiente 
resultado. 


Resultado 2.2.7. El tamaño poblacional es estimado insesgadamente mediante 
el uso de la siguiente expresión 


. 1 
Me= . (2.2.14) 
Ss 


Cuando se ha estimado el total poblacional de una característica de interés y el 
tamaño poblacional mediante el uso del estimador de Horvitz-Thompson, surge 
un estimador para la media poblacional dado por 


a 
as 9.2.15 
Ys = ( ) 
1 
=y* 73 EN (2.2.16) 
yg "e sg "e 


La anterior expresión es una razón, o un cociente entre dos totales poblaciona- 
les. Las propiedades estadísticas de los anteriores estimadores serán tratados más 
adelante en las secciones pertinentes del libro. 


Tillé (2006) cita que aun al conocer N, una mala propiedad del estimador de 
Horvitz-Thompson para la media poblacional se tiene al utilizarlo cuando la carac- 
terística de interés es constante para todos los elementos de la población (yx = C 
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Vk € U). Por supuesto, bajo las anteriores condiciones es claro que la media po- 
blacional es igual a la constante (Yu = C). Sin embargo, el estimador j, toma la 
siguiente forma 


e A A A 
LA a (2.2.17) 


Al respecto, Bautista (1998) afirma que en aquellos casos en los que se conoce el 
valor de N es preferible ignorarlo y utilizar el estimador ys puesto que su variación 
es menor y cuando y. = C Vk € U reproduce la media poblacional con varianza 
nula puesto que 


e Cj 
e 
Yr Yx 


Cuando el tamaño poblacional es conocido y, como se verá más adelante, para 
algunos diseños de muestreo sin reemplazo, se puede crear un nuevo estimador 
alternativo del total poblacional inspirado en el siguiente argumento: Si ys estima 
la media poblacional, entonces Nys estimará el total poblacional. Por tanto, el 
estimador alternativo está dado por la siguiente expresión 


E al . N 
ty alt = Nys = tur (2.2.18) 
Nr 
que se puede ver como una corrección del estimador de Horvitz-T'hompson me- 
diante la estimación del tamaño de la población. La varianza y la estimación de la 
varianza serán tema de capítulos posteriores. 


Ejemplo 2.2.1. La función HT del paquete TeachingSampling arroja la estima- 
ción del total poblacional de una o varias características de interés. Esta función 
tiene dos argumentos: el vector de tamaño n de probabilidades de inclusión pik y 
el conjunto de valores de la característica o características de interés en los indi- 
viduos pertenecientes a la muestra, y puede ser un vector en el caso de una sola 
característica de interés o una matriz en el caso de varias. 


Así, si la primera muestra (cuyos elementos son Yves y Ken) hubiese sido se- 
leccionada y dado que las probabilidades de inclusión de estos dos elementos son 
0.58 y 0.34, respectivamente y los valores de la característica de interés son 32 
y 34, respectivamente, el estimador de Horvitz-Thompson arrojaría la siguiente 
estimación: 


> ys <- c(32,34) 
> pik <- c(0.58,0.34) 
> HT(ys,pik) 
[,1] 
[1,] 155.1724 


Nótese que el total poblacional para la variable de interés y es igual a 236. Por otro 
lado, el cálculo o estimación de la varianza del estimador de Horvitz-Thompson no 
se encuentra implementado pues la doble suma hace que los procesos computacio- 
nales sean muy largos y demorado. Por tanto, si se quieren conocer estos valores, 
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el proceso se debe realizar manualmente. La estimación de la varianza se realiza 
teniendo en cuenta que m2 = 0.13. Así, 


Ar1 M1 T17T1 0.58 — 0.58? 


= = = 0.42 
m1 711 0.58 
A — T12 — T]T2 _- 0.13 — 0.58 x 0.34 Ss -05 
7112 T12 0.13 
As1 e T11 — Tari e 0.13 — 0.34 x 0.58 = 01,69 
T21 T21 0.13 
Aso E Ta — TaTa - 0.34 — 0.342 — 0.66 
722 T22 0.34 


Por tanto, utilizando (2.2.6), el estimador de la varianza será 


ASE Yy1 Yi dE Asa Yy1 Y2 + Aa1 Ya Y1 > Asa Ya Y2 
TMi1 71 71 Ti2 Ti Ta Ta1 Ta T1 T22 Ta Ta 


Var(t,) = 


y su respectiva estimación será 


3 Ny? 32 34 34 y? 
42| — ]) —2(0.52) | == —— e —— | 2214 
sl (55) (0002) (0 >a) Are (4) dl 
El coeficiente de variación estimado es 
a yv 2140 
cvelta) ===> 2 
155.1724 


Y el intervalo de confianza estimado con un nivel de confianza del 95 por ciento 
para esta estimación es el siguiente: 


IC¿(0.95) 2 [155 — (1.96) 2140, 155 + (1.96) 2140 
= [64, 246] 
Continuando con el ejercicio léxico-gráfico de la estimación del total poblacional 


t, en todas las posibles muestras de tamaño 10 de la población U, tenemos la 
siguiente tabla. 


X1 Xx2 Pp pi.k pi.l y.k y.1 Est 
1 Yves Ken 0.13 0.58 0.34 32 34 155.2 
2 Yves Erik 0.20 0.58 0.48 32 46 151.0 
3 Yves Sharon 0.15 0.58 0.33 32 89 324.8 
4 Yves Leslie 0.10 0.58 0.27 32 35 184.8 
5 Ken Erik 0.15 0.34 0.48 34 46 195.8 
6 Ken Sharon 0.04 0.34 0.33 34 89 369.6 
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7 Ken Leslie 0.02 0.34 0.27 34 35 229.6 
8 Erik Sharon 0.06 0.48 0.33 46 89 365.5 
9 Erik Leslie 0.07 0.48 0.27 46 35 225.4 
10 Sharon Leslie 0.08 0.33 0.27 89 35 399.3 


El vector Est contiene las estimaciones Horvitz-Thompson para cada una de las 
10 posibles muestras, su esperanza se calcula como 


> sum(prest) 
[11 236 


Nótese que la esperanza del estimador de Horvitz-Thompson reproduce exacta- 
mente el total poblacional. La varianza se calcula de la siguiente manera 


Var(t,) = (0.13)(155.2 — 236)? + (0.2)(151.0 — 236)? +--- 
+ (0.08)(399.3 — 236)? = 7847.2 


Acudiendo a la función VarHT, del paquete TeachignSampling, es posible reprodu- 
cir este mismo calculo de la varianza. Sin embargo, esta función utiliza la expresión 
teórica de la varianza Vary (t,,) dada por (2.2.4) para diseños de muestreo de ta- 
maño fijo. Tiene cuatro argumentos: y, que es un vector que contiene los valores de 
la característica de interés en todos y cada uno de los elementos de la población; N, 
el tamaño de la población; n, el tamaño de muestra fijo y p, el diseño de muestreo 
utilizado. El resultado de esta función es el cálculo del valor de la varianza teórica 
del estimador de Horvitz-Thompsosn para un diseño de muestreo y una configura- 
ción de valores poblacionales particular. Siguiendo con el diseño de muestreo dado 
en el ejemplo 2.1.2 y la configuración de valores de la característica de interés del 
ejemplo 2.1.3, tenemos que el calculo de la varianza es exactamente igual al dado 
por el ejercicio léxico-gráfico. 


> VarHT(y1, N, n, p) 
[1] 7847.2 


2.2.2 El estimador de Hansen-Hurwitz 
Sobre el muestreo con reemplazo 


Considere una población finita de N elementos y un diseño de muestreo que per- 
mite la selección de una muestra realizada s, con reemplazo, de tamaño m. Como 
Lohr (2000) lo afirma, la manera más intuitiva de entender este tipo de diseños 
muestrales con reemplazo es pensar en la extracción de m muestras independien- 
tes de tamaño 1. Se extrae un elemento de la población para ser incluido en la 
muestra con una probabilidad px; sin embargo, ese mismo elemento participa en 
el siguiente sorteo aleatorio. Este proceso se repite m veces; es decir, se tiene un 
total de m sorteos aleatorios. 


Bajo el anterior esquema de selección, es claro que un elemento puede ser seleccio- 
nado en la muestra más de una vez; por lo tanto, aunque el tamaño de la muestra 
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seleccionada con reemplazo es m, el tamaño de muestra efectivo no es necesaria- 
mente m. Nótese que la selección de un elemento que se repite más de una vez 
no proporciona información nueva. Es por esto que en la práctica, se prefieren los 
diseños de muestreo que permita la selección de muestras sin duplicados. 


Sárndal, Swensson € Wretman (1992) afirman que el marco general del muestreo 
con reemplazo tiene las siguientes características: 


e Cada elemento de la población está relacionado directamente con un número 
positivo py (k = 1,..., N) de tal forma que 


S py =1. 
U 


A py se le conoce como la probabilidad de selección del elemento k-ésimo. 
Nótese que estas probabilidades no son necesariamente iguales. 


e Para seleccionar el primer elemento que pertenecerá a la muestra de tamaño 
m, se lleva a cabo un sorteo aleatorio de tal forma que 


Pr(Seleccionar el elemento k) = pg, k € U. 


e El elemento seleccionado es reemplazado en la población y vuelva a ser parte 
del próximo sorteo aleatorio con la misma probabilidad de selección pz. 


e El mismo conjunto de probabilidades es usado para seleccionar los restantes 
elementos. En total se realizan m sorteos aleatorios independientes. 


Ahora, en muestreo con reemplazo la probabilidad de selección de un elemento no 
es lo mismo que la probabilidad de inclusiór[”] del mismo. Se tienen los siguientes 
resultados. 


Definición 2.2.1. Bajo un diseño con reemplazo, se define la variable aleatoria 
nx(S) como el número de veces que el elemento k-ésimo es seleccionado en la 
muestra aleatoria S. 


Resultado 2.2.8. La variable aleatoria ny(S) sigue una distribución binomial tal 
que 
E(nx(5)) = mp», Var(ni(S)) = mpr(1 — px) 


Prueba. Dado que cada una de las m extracciones inducen eventos estadísticos 
independientes, la selección en una extracción particular del k-ésimo elemento sigue 
una distribución de Bernoulli, con parámetro pz. Como se trata de m extracciones, 


ns(S) sigue una distribución binomial y puede tomar los valores 0,1,...,m; al 
definir éxito como la selección del elemento k-ésimo en la muestra, entonces se 
tiene la demostración del resultado. | 


Definición 2.2.2. De manera general, un diseño de muestreo con reemplazo se 
define como 


ORTO! Toto) si Ty nr(s) =m 


(2.2.19) 
0 en otro caso 


p(s) = 


3Nótese que la probabilidad de inclusión se refiere a la probabilidad de que el elemento sea 
seleccionado al menos una vez en la muestra. 
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Donde ny.(s) es el número de veces que el elemento k-ésimo es seleccionado en la 
muestra realizada s. 


Nótese la diferencia (y a la vez similitud) de la variable n¿(S) con la variable 1, (5), 
además por la definición anterior se tiene que el diseño de muestreo con reemplazo 
sigue una distribución multinomial, por lo tanto cumple las condiciones de diseño 
muestral; es decir, En p(s) = 1, donde Q es el soporte que contiene todas las 
posibles muestras con reemplazo de tamaño m. La cardinalidad de (, es 


(2.2.20) 


AO 


m 


Resultado 2.2.9. En muestreo con reemplazo, la probabilidad de inclusión de 
primer orden del elemento k-ésimo está dada por: 


Tk = 1-— a = pr)" (2.2.21) 


Prueba. Dado que se trata de eventos independientes los cuales tienen asociada 
una probabilidad de éxito (éxito equivalente a que el elemento k € s)px, entonces 
cada uno de estos sorteos aleatorios está determinado por una distribución de 
probabilidad de tipo Bernoulli. Por consiguiente, cuando se realizan m ensayos 
independientes, se utiliza la distribución de probabilidad binomial para hallar las 
probabilidades de inclusión de primer orden de cada uno de los elementos en la 
población 


Tk = Pr(k € S) =1-— Pr(k é s) 


Resultado 2.2.10. En muestreo con reemplazo, las probabilidades de inclusión 
de segundo orden rx,, están dadas por: 


Ty =1—(1- pr)" -(1-p)"+(1-p—p)"  kAfl=1...,N- (2.2.22) 


Prueba. Para hallar esta probabilidad debemos negar que (k € S y l € s). Esta 
negación da como resultado (k £ sól É s). Suponga que tenemos dos eventos, 
A=(k¿Es) y B= (UE s); por tanto, Pr(AU B) = Pr(A) + Pr(B) —- Pr(AN B). 
Las probabilidades anteriores se rigen por un modelo binomial, luego: 
Tk =Pr(ke S y le s) 
=1-—Pr(k Es) —- Pr(l € s) + Pr(k,l ¿ s) 
m m m m>—m 
=I=1=p94) "ea ( Ja — Pr — Pi)" (Dr + pr) 


=1= (11 =p4=(1 =p" 


(1— py —pi)”" 
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El cuarto sumando en la igualdad anterior se obtiene considerando que cada ensayo 
se toma como un proceso Bernoulli, donde el éxito es no escoger ni a k ni a l. Por 
tanto 


Pr(Éxito) = 1-— Pr(Fracaso) 
= 1 -— Pr(Escoger a k) — Pr(Escoger a 1) + Pr(Escoger a ambos) 
=1-— pi — pl 


Puesto que se trata de un sólo ensayo, la probabilidad de escoger a ambos es 
nula. | 


Esto se nota más claramente con el típico ejemplo del dado. Si el evento es el 
lanzamiento de un dado y el éxito es no sacar 3 o 5, entonces la probabilidad 
de obtener éxito será: 1— Pr(Fracaso), es decir 1 — Pr(Sale 5) — Pr(Sale 1) + 
Pr(Sale 5 y 1). Es obvio que el último sumando es cero dado que se trata de un 
sólo lanzamiento. 


Ejemplo 2.2.2. El lector no debe confundir el concepto de muestra con reem- 
plazo con el concepto de extracción ordenada. En nuestra población ejemplo 
el tamaño poblacional es N = 5. Si se utiliza un diseño de muestreo que induzca 
muestras de tamaño fijo igual a m = 2, entonces existirían N”” = 5? = 25 posibles 
extracciones ordenadas. Sin embargo, sólo existen pa = ll = 15 posibles 
muestras con reemplazo. Este escenario es evidenciado fácilmente con la ayuda de 
la variable aleatoria nz (5). Las posibles extracciones ordenadas están dadas de la 
siguiente manera. 


(1,1) (2,1) (3,1) (4,1) (5,1) 
(1,2) (2,2) (3,2) (4,2) (5,2) 
(1,3) (2,3) (3,3) (4,3) (53) 
(1,4) (2,4) (3,4) (4,4) (5,4) 
(1,5) (2,5) (3,5) (4,5) (5,5) 


Sin embargo, aunque todas las posibles extracciones ordenas no constituyen el 
soporte de muestreo, éstas si ayudan a definirlo. De hecho, el primer paso para la 
construcción del soporte de muestreo con reemplazo es la determinación de todas 
las posibles extracciones. La función OrderWH!] del paquete TeachingSampling 
permite conocer todas las posibles extracciones de tamaño fijo para un diseño de 
muestreo con reemplazo. 


Esta función cuenta con tres argumentos: el primer argumento correspondiente al 
tamaño de la población N, el segundo, correspondiente al tamaño de las seleccio- 
nes, m, que no necesariamente debe ser menor que el tamaño poblacional] y, el 
último corresponde a una característica ID que puede ser un conjunto de rótulos o 
cualquier otro tipo de identificador continuo. El resultado de la función OrderWR 
será un conjunto de todas las posibles extracciones ordenadas con tamaño fijo m. 


4El autor desea recalcar que el resultado de esta función no corresponde al soporte de muestreo 
con reemplazo sino al conjunto de todas las posibles extracciones ordenadas con reemplazo y de 
tamaño fijo. 

5Se enfatiza que para este tipo de diseños de muestreo con reemplazo es posible que el tamaño 
de muestra sea mayor al tamaño poblacional. 
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Cuando el argumento ID es distinto de FALSE, la salida de la función correspon- 
derá al rótulo o identificador continuo para cada elemento de la población. En el 
siguiente ejemplo se utiliza esta función en nuestra población ejemplo U. 


> N <- length(U) 


> N 
[11 5 
>m< 2 
>OrderWR(N,m,ID=FALSE) > OrderWR(N,m,ID=U) 
[,1] [,2] [,1] [,2] 
[1,] 1 1 [1,] "Yves" "Yves" 
[2,] 1 2 [2,] "Yves" "Ken" 
[3,1 d: 3 [3,] "Yves" "Erik" 
[4,] 1 4 [4,] "Yves" "Sharon" 
[5,1 1 5 [5,] "Yves" "Leslie" 
[6,] 2 1 [6,] "Ken" "Yves" 
[7,] 2 2 [7,] "Ken" "Ken" 
[8,] 2 3 [8,] "Ken" "Erik" 
[9,1 2 4 [9,] "Ken" "Sharon" 
[10,1 2 5 [10,] "Ken" "Leslie" 
[11,] 3 1 [11,] "Erik" "Yves" 
[12,] 3 2 [12,] "Erik" "Ken" 
[13,] 3 3 [13,] "Erik" "Erik" 
[14,] 3 4 [14,] "Erik" "Sharon" 
[15,] 3 5 [15,] "Erik" "Leslie" 
[16,1 4 1 [16,] "Sharon" "Yves" 
[17,] 4 2 [17,] "Sharon" "Ken" 
[18,] 4 3 [18,] "Sharon" "Erik" 
[19,1 4 4 [19,] "Sharon" "Sharon" 
[20,1 4 5 [20,] "Sharon" "Leslie" 
[21,] 5 1 [21,] "Leslie" "Yves" 
[22,] 5 2 [22,] "Leslie" "Ken" 
231 Br 3 [23,] "Leslie" "Erik" 
[24,] 5 4 [24,] "Leslie" "Sharon" 
[25,1 5 5 [25,] "Leslie" "Leslie" 


Nótese que el conjunto de extracciones ordenadas contiene al soporte de mues- 
treo con reemplazo. Sin embargo, con ayuda de la función SupportWR del paquete 
TeachingSampling se define el verdadero soporte inducido por el diseño de mues- 
treo con reemplazo. Los argumentos de esta función son los mismos tres de la 
función OrderWR: N, m y ID. El resultado de la función es el conjunto de todas 
las posibles muestras con reemplazo de tamaño fijo. Para este ejemplo particu- 
lar, el soporte está dado por las siguientes muestras y no por todas las posibles 
extracciones ordenadas. 
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> SupportWR(N, m,ID=FALSE) 


[1,] 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,] 
[10,] 
[11,] 
[12,] 
[13,] 
[14,] 
[15,] 


[,11 [,2] 
1 1 
l 2 
1 3 
1. 4 
1 5 
q 
E 
2.4 
Z 3 
de 18 
3.4 
Su 46 
4. 4 
4 5 
E a 


> SupportWR(N,m,ID=U) 


[1,1 
[2,] 
[3,1] 
[4,] 
[5,] 
[6,] 
[7,1] 
[8,] 
[9,] 
[10,] 
[11,1] 
[12,] 
[13,] 
[14,] 
[15,] 


[,1] 


"Yves" 


"Yves" 
"Yves" 


"Yves" 


"Yves" 


"Ken" 
"Ken" 
"Ken" 
"Ken" 


" Erik" 
" Erik" 
" Erik" 


"Sharon" 
"Sharon" 
"Leslie" 


[,2] 
"Yves" 
"Ken" 
"Erik" 
"Sharon" 
"Leslie" 
"Ken" 
"Erik" 
"Sharon" 
"Leslie" 
"Erik" 
"Sharon" 
"Leslie" 
"Sharon" 
"Leslie" 
"Leslie" 


Por supuesto, cada una de las posibles muestras con reemplazo que pertenecen al 
soporte tiene distintas probabilidades de selección dependiendo de la configuración 
de las probabilidades de selección individuales para cada elemento, pz. Supongamos 
que cada uno de los cinco elementos de la población tiene probabilidad de selección 
dadas por 


0 


1/4, para k = Yves, Ken, Leslie, 
1/8, para k = Sharon, Erik 


Nótese que y px = 1. Para esta configuración particular, y siguiendo la expresión 
(2.2.19), las probabilidades de selección p(s) de las muestras en el soporte y el valor 
de la variable nz (S) estarían dadas por la siguiente configuración. 


00 Y]O0OM+>SU0Ne- 


hope 
Po 


http 
MA w0wN 


vi 
Yves 
Yves 
Yves 
Yves 
Yves 
Ken 
Ken 
Ken 
Ken 
Erik 
Erik 
Erik 
Sharon 
Sharon 
Leslie 


v2 
Yves 
Ken 
Erik 
Sharon 
Leslie 
Ken 
Erik 
Sharon 
Leslie 
Erik 
Sharon 
Leslie 
Sharon 
Leslie 
Leslie 


p(s) 


o0ooUDOO0O0O0O0O0O0O0O0O0Oo0oO0o0oO0ooO0o0 


.0625 
.125 
.0625 
.0625 
.125 
.0625 
.0625 
.0625 
.125 
.015625 
.03125 
.0625 
.015625 
.0625 
.0625 


ni n2 n3 n4 n5 


O0o0O0O0O0O0O0O0O0O0O0OrrR*R AN 


0 


o0o0o0DOO0OO0OO0OrRr*RRNOOOR 


0 


Oo0OoOrrnNnynooroOooOooro 


0 


OrnNOorOoOoRrOoOoOoRrOoOo 


0 


NPROPOOFPOOOPRPOOO 
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Nótese que la suma de las probabilidades de selección inducidas por el diseño de 
muestreo es igual a uno y que cada una de ellas es mayor que cero. El lector debe 
fijarse en que la muestra perteneciente al soporte está dada en términos de ny (5). 
De esta manera, si se ha seleccionado la séptima muestra dada por 1 0 1 0 0,en 
realidad, no importa si Yves fue seleccionado primero o después que Erik y la 
probabilidad de selección de esta muestra particular es 0.125 pues 


o) 0000] 


Estimador del total poblacional 


Hansen, Hurwitz € Madow (1953) proponen un estimador conveniente para el total 
de una población ty cuando el diseño de muestreo es con reemplazo. La lógica que 
sigue en la construcción de este estimador está dada a continuación. Sea el evento 
aleatorio: 


Seleccionar el elemento k (k € U) en el ¿-ésimo sorteo (i=1,...,m). 


Este evento define la creación de variables aleatorias, que serán utilizadas más 
adelante, cuyo comportamiento es posible modelar mediante el siguiente resultado. 


Resultado 2.2.11. Sean U¡,Uz,...,U.,, es una sucesión de variables aleatorias 
independientes e idénticamente distribuidas con E(U;) = y y Var(U;) = 0?. Sea 
U =>", U,/m. Entonces E(U) = y, Var(U) = 0? /m y un estimador insesgado 


de Var(U) está dado por la siguiente expresión 


Var(0) = 3 AT (2.2.23) 


1 
m(m-=1) E 


y por consiguiente, un estimador insesgado para 0? está dado por 


0? = _— 20 Uy (2.2.24) 
Prueba. La esperanza de U es 
E(U) = ¿40 =p (2.2.25) 
La varianza está determinada por 
Var(U) = = Ss Var(U;) =0*/m (2.2.26) 
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Nótese que los términos de covarianza son nulos puesto que las variables son inde- 
pendientes entre ellas. Ahora como 


Sí, - Uy = y Uf — mU? (2.2.27) 
entonces, 

EQ_(U - 0) = ya E(U?) — mE(07?) (2.2.28) 
Por otro lado . 

E(U) =Vor(U) + [E(U)1? =07 + yO 

E(0?) = Var(U) + [E(0)]? =0?/m + p? 


Esto conduce a la demostración del teorema puesto que 
EN (0, - 0y) = (m- 1)o? (2.2.29) 
| 


El anterior es un resultado muy potente que puede ser utilizado para cualquier 
tipo de variables aleatorias que sean independientes e idénticamente distribuidas 
y será la base para la demostración de resultados en la estimación de parámetros 
que utilicen diseños de muestreo con reemplazo. Siguiendo con el marco teórico 
del muestreo con reemplazo tenemos la siguiente definición. 


Definición 2.2.3. Se define la variable aleatoria Z; tal que 
Zi = Yk;/Pr, keU i=1,...,m (2.2.30) 
donde la cantidad yy, es el valor de la característica de interés del k-ésimo elemento 


seleccionado en la i-ésima extracción. Análogamente, px, es el valor de la proba- 
bilidad de selección del k-ésimo elemento seleccionado en la i-ésima extracción. 


Resultado 2.2.12. La distribución de la variable aleatoria Z, está dada por 
Pr (2 = 2) = hs (2.2.31) 
Pr 


por tanto la esperanza y varianza de la variable aleatoria Z¿ son 


E(Z;) =t, (2.2.32) 


ds 9 
Van) d 0 (E t,) (2.2.33) 


respectivamente. 
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Prueba. Dado que se trata de m sorteos aleatorios independientes, la variable 
aleatoria Z, puede tomar los siguientes valores 


YY YN 
pp 'PN 
con probabilidades 
P1,P2---,PN 


respectivamente. Luego, acudiendo a la definición genérica del operador esperanza, 
se tiene 


y Pk Pk y Pk 


y análogamente se tiene la varianza 


Var(Z,) = Y E e (2)) er (2 = 3) =Y E a 6) 2 
U 


y NPk 


Dado que las m extracciones son eventos independientes, también lo son las varia- 
bles YA | Nótese que la cantidad Z; es una estimación del total poblacional con la 
¿-ésima muestra seleccionada de tamaño 1. Ahora, como existen m sorteos habrán 
m estimaciones del total poblacional; por tanto, como en mucho otros procedimien- 
tos estadísticos utilizamos el promedio de estas m estimaciones para obtener una 
estimación unificada para ty. El estimador de Hansen-Hurwitz toma la siguiente 
forma 


a 1 y, 
typ == a (2.2.34) 


m ES 
¿=1 Pki 


Para tener una estrategia de muestreo que resulte eficiente en la estimación de t,, es 
conveniente utilizar el estimador de Hansen-Hurwitz, cuando las probabilidades de 
selección son proporcionales a la característica de interés; esto es, cuando px X Yk. 
Si lo anterior sucede, el estimador tendrá una varianza casi nula y la estimación 
será muy precisa. 


Resultado 2.2.13. Si px > 0, para todo k € U, el estimador e es insesgado 


Prueba. Las variables aleatorias Z, son independientes (porque cada ensayo es 
independiente) y su distribución está inducida por Pr(Z; = Yx/px) = Px, k € U; es 
decir, son idénticamente distribuidas. Por tanto, el estimador de Hansen-Hurwitz 
puede escribirse como: 


6Z1, ...,%m define una sucesión de variables aleatorias independientes e idénticamente dis- 
tribuidas, o si se quiere, en términos de la inferencia clásica, define una muestra aleatoria. 


2.2. Estimadores de muestreo 55 


y así con px > 0 para todo k € U, tenemos 


1 m 
bu9) = 5 2 EZ ==, 


Varianza del estimador de Hansen-Hurwitz 

Una de las características más importantes del estimador de Hansen-Hurwitz es 
la sencillez de la expresión de su varianza. Esta misma hace que aunque el mues- 
treo sea con reemplazo, el estimador de Hansen-Hurwitz sea utilizado de manera 


frecuente por los usuarios de los estudios por muestreo. 


Resultado 2.2.14. La varianza del estimador de Hansen-Hurwitz está dada por 
la siguiente expresión 


N 2 
: 1 
Var(typ) == S pr E > t,) (2.2.35) 


k IL 
Var(ty p) = Var E 3 2) 


| 
E 
¡Ma 
<= 
S 
N 


La anterior expresión hace que el cálculo computacional de la varianza del esti- 
mador de Hansen-Hurwitz sea muy sencillo. Sin embargo, esta varianza se puede 
escribir de varias formas, algunas de ellas muy útiles para el desarrollo teórico de 
las propiedades del estimador. 


Resultado 2.2.15. De manera general, la varianza del estimador de Hansen- 
Hurwitz se puede escribir de la siguiente manera 


Var(t - (3% YE _ 4) (2.2.36) 
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Prueba. 


q i 2 
2 k 
Var(typ) == Pe > Pr (2 = t,) 


N 
== (2 2. O) 
m £ DR "Pr  ” 
N 
1 % 
a (YE — at +3) 
Mr] NPk 
N a N N 
1 Yk 2 
(Sia ta 
p=1 PH k=1 k=1 
N N 
1 S 1 4 
(Dé 0.8) -2(2%-2) 
Aa PAL 


Estimación de la varianza 


Resultado 2.2.16. Un estimador insesgado de la expresión (2.2.35) es 


O 1 m : ' 2 
Var(t,p) = (E ta») (2.2.37) 


Prueba. Al desarrollar la varianza del estimador llegamos a que ésta es igual a 
Var(Z,) 
a r 4). 
va 


Ahora, utilizando el resultado 2.2.11, como Z1,...,Z,, conforman una muestra 
aleatoria de variables con esperanza t, e idéntica varianza, entonces un estimador 
natural e insesgado para la varianza de Z;, es 


m 


1 ú m-—1 eje 


¡1 MP 


por tanto, un estimador insesgado de la varianza del estimador de Hansen-Hurwitz 
será 


Dori? 1201 OY; ? 
Var(typ) = ml y ( lan) 
Bl 


Resultado 2.2.17. Una expresión alternativa para la estimación de la varianza 
del estimador de Hansen-Hurwitz en muestreo con reemplazo es 


a AN 
Var(t, p)= n= De ( :) Me 
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Prueba. Partiendo del resultado anterior, se tiene que 


m 2 
TÍ Uk; 7 
m(m — 1)Var(typ) = y ( 2 ta») 


cn = ho 2t Uk; P 
e 3 Pp — 2yp e Y,p 
i=1 Ki i 
m É ) m y 
ki k 
E] 2 mi 
2 Y,p Y,p 
¿=1 MP; ¿=1 Phi 
m 2 
PoR Ye, 2 
= 5 ) — 2Mt;, y. + Mty,p 
¿=1 Pr, 
m y 2 
ki 72 
= —= mt 
(E) mis, 


Aunque el diseño muestral sea con reemplazo, es posible utilizar el estimador de 
Horvitz-Thompson, pues conserva su insesgamiento. La comparación entre la pre- 
cisión del estimador de Horvitz-Thompson y el estimador de Hansen-Hurwitz, en 
un diseño con repetición depende de la configuración de los valores de la carac- 
terística de interés en la población yx Vk = 1,2,..., N. Sin embargo, generalmente el 
estimador de Horvitz-T'hompson es más eficiente más eficiente que el estimador de 
Hansen-Hurwitz, aunque éste último es más fácil de calcular. Cuando el diseño de 
muestreo es de tamaño fijo, el estimador de Horvitz-Thompson y Hansen-Hurwitz 
coinciden. 


Ejemplo 2.2.3. Continuando con el ejercicio léxico-gráfico de la estimación del 
total poblacional t,, para todas las posibles muestras con reemplazo de tamaño 2 de 
la población U, tenemos la siguiente tabla que da cuenta del soporte de muestreo 
con ayuda de la función SupportWR 


X1 x2 p.k p.1 p.s y.k y.l Est 
Yves Yves 0.250 0.250 0.0625 32 32 128 
Yves Ken 0.250 0.250 0.1250 32 34 132 
Yves Erik 0.250 0.125 0.0625 32 46 248 
Yves Sharon 0.250 0.125 0.0625 32 89 420 
Yves Leslie 0.250 0.250 0.125 32 35 134 
Ken Ken 0.250 0.250 0.0625 34 34 136 
Ken Erik 0.250 0.125 0.0625 34 46 252 
Ken Sharon 0.250 0.125 0.0625 34 89 424 
Ken Leslie 0.250 0.250 0.125 34 35 138 
Erik Erik 0.125 0.125 0.015625 46 46 368 
Erik Sharon 0.125 0.125 0.03125 46 89 540 
Erik Leslie 0.125 0.250 0.0625 46 35 254 
Sharon Sharon 0.125 0.125 0.015625 89 89 712 
Sharon Leslie 0.125 0.250 0.0625 89 35 426 
Leslie Leslie 0.250 0.250 0.062500 35 35 140 


58 2. Muestras probabilísticas y estimadores 


El vector Est contiene las estimaciones de Hansen-Hurwitz para cada una de las 
posibles 15 muestras con reemplazo, su esperanza se calcula como 


> sum(est*p.s) 
[1] 236 


Nótese que la esperanza del estimador equivale al total de la característica de in- 
terés, corroborando su insesgamiento. Por otro lado, para seleccionar una muestra 
con reemplazo, R incorpora la función sample, cuyos principales argumentos son 


Xx, size, replace, prob. 


x es el tamaño de la población, size es un número entero que determina el tamaño 
de la muestra. Para seleccionar una muestra con reemplazo, el argumento replace 
debe tomar el valor TRUE, así replace = TRUE. Cada elemento perteneciente a 
la población debe tener asociado un vector de probabilidades de selección cuya 
suma sea igual a la unidad. En R, el argumento prob contiene este vector de 
probabilidades; cuando se omite este argumento, la función sample asume que las 
probabilidades de selección son idénticas para cada individuo en la población. Así, 
por ejemplo, para seleccionar una muestra con reemplazo del marco de muestreo 
de U de tamaño m = 3, con las probabilidades de selección dadas por 


> pk <- c(0.9, 0.025, 0.025, 0.025, 0.025) 
> pk 
[1] 0.900 0.025 0.025 0.025 0.025 


Nótese que la suma de las probabilidades de selección es igual a uno y que los 
rótulos o nombres para cada individuo en la población están contenidos en el 
objeto U. 


>U 
[1] "Yves" "Ken" "Erik" "Sharon" "Leslie" 


Para seleccionar una muestra con reemplazo de tamaño m = 3 se debe escribir el 
siguiente código 


> sam <- sample(N, 3, replace=TRUE, prob=pk) 
> sam 
[11-31 1 


Para la selección anterior, fue escogido dos veces el primer elemento y una vez 
el tercer elemento. La indexación de los rótulos (nombres) y valores de la carac- 
terística de interés de los elementos escogidos en la muestra se hace utilizando 


pkm <- c(0.9, 0.025, 0.025) 
ym <- c(46, 32, 32) 
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Nótese que el tamaño de muestra es 3, pero el tamaño efectivo de muestra es 
n(S) = 2. Siendo pkm el vector de probabilidades de selección para los indivi- 
duos pertenecientes a la muestra y ym el vector de valores de la característica de 
interés para los individuos pertenecientes a la muestra. La función HH del paquete 
TeachingSampling realiza la estimación del total poblacional para la característica 
de interés. Esta función consta de dos argumentos: y, el vector de valores de la 
característica de interés de los individuos en la muestra y pk sus correspondientes 
probabilidades de selección. 


> est <- HH(ym,pkm) [1] 
> est 

[,1] 
[1,] 870.370 


Para realizar la estimación de la varianza se crea un vector de diferencias dif entre 
e y la estimación. Luego se procede a elevarlo al cuadrado, sumarlo y dividir por 
m(m — 1). 


> dif <- rep(0,3) 

> dif[1] <- (ym[11/pxm[1])-est 
> dif[21 <- (ym[2]1/pkm[21)-est 
> dif[3] <- (ym[31/pxm[3])-est 


> dif 

[1] -819.2593 409.6296 409.6296 
> Var <- (1/3)*x(1/2)*sum(dif”2) 

> Var 

[11 167796.4 


Luego, el respectivo coeficiente de variación estimado es 


(6,) v195018 _ 0.7 

Cue — E 

a 637.037 

Podemos pensar en el coeficiente de variación estimado como una medida de pre- 
cisión. Así, las anteriores estimaciones se podrían decir inaceptables porque esta 
medida es muy alta. 


El objetivo de este libro es que el lector esté en la capacidad de proponer estrategias 
de muestreo que permitan estimaciones precisas y confiables. Es decir, estimaciones 
cuyo coeficiente de variación sea aceptabld"Jcuya longitud del intervalo de confianza 
sea corta con un nivel de confianza satisfactorio. 


2.3 Muestras representativas 


La teoría de muestreo se ha visto enriquecida en las últimas décadas por valiosos 
aportes a nivel mundial; aunque la base de la teoría de muestreo es la teoría 


TEn muchos casos un coeficiente de variación aceptable es menor al 3 por ciento. 
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de probabilidad, cuyo desarrollo axiomático cuenta varios centenares de años, su 
desarrollo práctico no sucedió sino hasta comienzos del siglo XX. Sin embargo, en 
la teoría clásica de inferencia estadística, basados en el pensamiento de Ronald 
Fisher y otros, asumen que la población es infinita. Un aspecto fundamental de la 
teoría de muestreo es que está basada en la realidad, en donde las poblaciones por 
más grandes que sean son de naturaleza finita. 


Partiendo de este hecho es posible fundamentar la inferencia basada en una mues- 
tra aleatoria pero que proviene de una población finita y desde esta perspectiva 
los resultados de las inferencias diferirán de una manera significativa. De hecho, 
el llamado de atención es para que las personas que hacen inferencia con datos 
provenientes de un estudio por muestreo, se actualicen y no cometan grandes 
equivocaciones a la hora de presentar los resultados de la inferencia (Chambers 
éz Skinner 2003). Por eso la teoría de muestreo cubre aspectos fundamentales de 
la estadística, porque desde un experimento controlado, hasta una encuesta por 
muestreo (Survey sampling), se debe pensar en el mecanismo de recolección de la 
información, y desde allí en la inferencia. 


Un ejemplo común en las aulas de clase es describir la población en el tablero 
mediante una carita feliz, el profesor dice que una muestra representativa de la 
población es aquella muestra en donde se sigue viendo la misma carita feliz. Es 
decir, existe la creencia que una muestra representativa es un modelo reducido de 
la población y de aquí se desprende un argumento de validez sobre la muestra: 
una buena muestra es aquella que se parece a la población, de tal forma que las 
categorías aparecen con las mismas proporciones que en la población. Nada más 
falso que esta creencia. En algunos casos es fundamental sobre-representar algunas 
categorías o incluso seleccionar unidades con probabilidades desiguales. 


Tillé (2006) cita el siguiente ejemplo: suponga que el objetivo es estimar la pro- 
ducción de hierro en un país y que nosotros sabemos que el hierro es producido, 
por dos compañías gigantes con miles de empleados y por cientos de pequeñas 
compañías con pocos empleados. ¿La mejor forma de seleccionar la muestra con- 
siste en asignar la misma probabilidad a cada compañía? Claro que no. Primero 
averiguamos la producción de las grandes compañías. Después, seleccionamos una 
muestra de las compañías pequeñas. 


La muestra no debe ser un modelo reducido de la población; debe ser una he- 
rramienta usada para obtener estimaciones. Es así como el concepto de muestra 
representativa pierde peso. Más aún, para Hájek (1981), una estrategia de mues- 
treo es una dupla: diseño de muestreo (distribución de probabilidad sobre todas las 
posibles muestras) y estimador. La teoría de muestreo se ha ocupado de estudiar 
estrategias óptimas que permitan asegurar la calidad de las estimaciones. Enton- 
ces, el concepto de representatividad debería estar asociado con las estrategias de 
muestreo y no sólo con las muestras. 


Siguiendo con Tillé (2006), una estrategia se dice representativa si permite estimar 
un total poblacional exactamente; es decir, sin sesgo y con varianza nula. Si se 
utiliza, por ejemplo, el estimador de Horvitz-Thompson junto con un diseño de 
muestreo apropiado, esta estrategia es representativa sólo sí, junto con la muestra 
seleccionada, el estimador reproduce algunos totales de la población; tales muestras 
se llaman muestras balanceadas. Existen también, estimadores que brindan a la 
estrategia el calificativo de representativa, algunos de ellos son conocidos como 
estimadores de calibración. 
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2.4 Ejercicios 


2.1 Pruebe que bajo un diseño de muestreo p(s), el error cuadrático medio de 
cualquier estimador T(s) de un parámetro T' es igual a la varianza Var(T') 
más el sesgo al cuadrado B?(T). 


Sugerencia: ECM (7) = Ep (76) Ty => eq (26) - T) p(s) 
2.2 Demuestre que Tr = E, (14 (s)1,(s)). 


2.3 Suponga que tiene acceso a la población finita de tamaño N = 5 del ejemplo 
2.2.1. y asuma el siguiente diseño de muestreo sin reemplazo 


0.2, para s = (Ken, Erik, Sharony, s = [ Ken, Leslie), 
p(S=s)=3 0.3, para s = (Yves, Erik, Leslie», s = [Y ves, Sharon), 
0, En otro caso. 


e Calcule todas las probabilidades de inclusión de primer y de segundo 
orden. 


e ¿Es el anterior un diseño de muestreo de tamaño de muestra fijo? Expli- 
que. 


e Enumere todos los valores que toma la variable aleatoria n(.5) y verifique 


las relaciones Ep(n(S)) = y Tr y Varp(n(S)) = Y y Tr — Oy TY + 
pl TE 


2.4 Suponga que tiene acceso a la población finita de tamaño N = 5 del ejemplo 
2.2.1. y asuma el siguiente diseño de muestreo sin reemplazo 


ses for Si n(S) =3, 


0, En otro caso. 


e Defina todas las posibles muestras que pertenecen al soporte inducido 
por el anterior diseño de muestreo. 


e Calcule todas las probabilidades de inclusión de primer y de segundo 
orden. 


e Verifique que y TT = 3 y que y Tr — Ou Tr) + Y Tel = 0. 
Explique. 


e Verifique que ) yy Tr1 =3XT1, y Tra = 3x2, hasta D y Trs = 3 Xx T5. 


e Calcule todas las posibles covarianzas Ayy y verifique que y Aj1 = 0, 
hasta Y y Aps =0. 


2.5 Demuestre o refute la siguiente afirmación: «Bajo cualquier diseño de mues- 
treo, la suma poblacional de las probabilidades de inclusión de primer orden 
es siempre igual al tamaño de muestra>. 


2.6 Demuestre o refute la siguiente afirmación: «Bajo cualquier diseño de mues- 
treo, el estimador de Horvitz-T'hompson puede ser utilizado para obtener una 
estimación insesgada del total poblacional». 
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2.1 


2.8 


2.9 


2.10 


2.11 


2.12 


Suponga que tiene acceso a la población finita de tamaño N = 5 del ejemplo 
2.2.1 y que yx denota el valor de la característica de interés en el k-ésimo 
individuo. De esta manera, se tiene que: 


UYves = 32, UkKen = 34, YVErik = 46, YUSharon = 89, YLeslie = 35 


e Para el diseño de muestreo del ejercicio 2.3, en cada una de las posibles 
muestras calcule la estimación de Horvitz-T'hompson, la estimación de la 
varianza, el cue y la estimación del intervalo de confianza al 95%. Por 
último, muestre que el estimador es insesgado y calcule la varianza del 
estimador utilizando la expresión (2.2.4). 


e Para el diseño de muestreo del ejercicio 2.4, en cada una de las posibles 
muestras calcule la estimación de Horvitz-Thompson, la estimación de 
la varianza, el cue y la estimación del intervalo de confianza al 95%. 
Por último, muestre que el estimador es insesgado y calcule la varianza 
del estimador utilizando la expresión (2.2.4) y (2.2.5). ¿Son iguales estas 
varianzas? Explique. 


e Para el diseño de muestreo del ejercicio 2.3, en cada una de las posibles 
muestras calcule la estimación de Horvitz-Thompson de la media (ex- 
presión 2.2.10), la estimación del tamaño poblacional (expresión 2.2.14), 
la estimación alternativa de la media (expresión 2.2.15) y la estimación 
alternativa del total (expresión 2.2.18). 

e Para el diseño de muestreo del ejercicio 2.4, en cada una de las posibles 
muestras calcule la estimación de Horvitz-Thompson de la media (ex- 
presión 2.2.10), la estimación del tamaño poblacional (expresión 2.2.14), 
la estimación alternativa de la media (expresión 2.2.15) y la estimación 
alternativa del total (expresión 2.2.18). 


Demuestre o refute la siguiente afirmación: «Bajo cualquier diseño de mues- 
treo con reemplazo, el estimador de Hansen-Hurwitz puede ser utilizado para 
obtener una estimación insesgada del total poblacional». 


Demuestre o refute la siguiente afirmación: «La probabilidad de selección de 
un individuo es siempre igual a su probabilidad de inclusión». 


Demuestre o refute la siguiente afirmación: «Cualquier diseño de muestreo con 
reemplazo se puede ver com un caso particular de la distribución multinomial>. 


Demuestre o refute la siguiente afirmación: «Para una población de tamaño 
N, el número de posibles muestras con reemplazo de tamaño m es N”»>, 


Suponga que tiene acceso a la población finita de tamaño N = 5 de los ante- 
riores ejercicios y asuma las siguientes probabilidades de selección 


0.3, para k= Yves, Leslie, 
Pr = 30.2, para k = Erik, 
0.1, para k = Ken, Sharon. 


e ¿Cuántas muestras con reemplazo de tamaño m = 3 se pueden seleccio- 
nar? Especifique explícitamente el diseño de muestreo para estas muestras 


y compruebe que >scoPls) =1. 
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e Para este diseño de muestreo, y teniendo en cuenta los valores de la 
característica de interés del ejercicio 2.7, en cada una de las posibles 
muestras calcule la estimación de Hansen-Hurwitz, la estimación de la 
varianza, el cve y la estimación del intervalo de confianza al 95%. Por 
último, muestre que el estimador es insesgado y calcule la varianza del 
estimador utilizando la expresión (2.2.35). 


e ¿Es posible utilizar otro tipo de estimadores para obtener estimaciones 
insesgadas del total poblacional? 


2.13 Demuestre rigurosamente que el estimador de la varianza del estimador de 
Hansen-Hurwitz corresponde a la expresión (2.2.36). 


Capítulo 3 


Muestras con probabilidades 
simples 


Las muestras no están dadas, las muestras deben ser seleccionadas, asigna- 
das o capturadas. El tamaño de la muestra no siempre es fijo. En estudios 
por muestreo, el tamaño de muestra es casi siempre una variable aleato- 
ria. Los datos no siempre son independientes o idénticamente distribuidos 
y usualmente no son seleccionados de una sola población, sino de sub- 
poblaciones compuestas o complementarias. Más aún, no se produce una 
sola estimación, se produce un conjunto de estimaciones, así que la historia 
que siempre nos han contado está equivocada. 


Leslie Kish (1996) 


Cuando el marco de muestreo disponible para la selección de la muestra es una 
lista conteniendo la identificación y la ubicación de los elementos en la población, 
se utilizan diseños de muestreo que permitan la inclusión de éstos en la muestra de 
forma directa. Es decir, en la selección de la muestra, los elementos poblacionales 
son las mismas unidades de muestreo. Una vez que el procedimiento de muestreo 
ha seleccionado la muestra de elemento, el siguiente paso a realizar es la medición 
de la característica de interés y, en cada elemento de la muestra seleccionada 
(k € s). 


En este capítulo se describen los diseños de muestreo para elementos más impor- 
tantes, algunos de los cuales son ampliamente utilizados en la práctica, otros tienen 
la característica de ser de tamaño de muestra variable o aleatorio. Cuando el marco 
de muestreo contiene información auxiliar de tipo continuo para cada elemento de 
la población, se utilizará esta información en la selección de la muestra, inducien- 
do los diseños proporcionales al tamaño. Cuando el marco de muestreo contiene 
información auxiliar discreta, se utilizarán diseños de muestra estratificados que 
permiten, a menudo, mayor precisión cuando la característica de interés presenta 
comportamientos diferentes en cada estrato o grupo poblacional. 


Para cada diseño de muestreo se realiza una descripción teórica, se utilizará la po- 
blación U para realizar algunos ejercicios léxico-gráficos que describan el compor- 
tamiento de la estrategia de muestreo. Por otro lado, se utilizará la población Lucy 
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y, con ayuda del paquete TeachingSampling, se seleccionará una única muestra 
para la posterior estimación de los parámetros de interés. También habrá ejemplos 
prácticos de la vida real que permiten una mayor comprensión de las característi- 
cas del diseño y un mayor conocimiento a la hora de decidir qué diseño de muestreo 
debe see implementado en determinados casos. 


Las estrategias de muestreo implementadas en este capítulo corresponden a la 
utilización del estimador de Horvitz-Thompson junto con diseños de muestreo sin 
reemplazo y/o al uso del estimador de Hansen-Hurwitz en diseños de muestra con 
reemplazo. 


3.1 Diseño de muestreo Bernoulli 


En el diseño de muestreo Bernoulli se fija a priori (por experiencia o alguna otra 
razón) la probabilidad de inclusión de todos los individuos, la cual permanece cons- 
tante para todo el universo. Es decir, Tr = 71 para todo k € U. Un típico ejemplo 
de la implementación de este diseño en la práctica es la revisión de equipajes de 
pasajeros por los funcionarios de la aduana en un aeropuerto; se fija la probabilidad 
de inclusión para cada pasajero y mediante cierto mecanismo de selección (muy 
simple) se selecciona la muestra, conforme las personas van ingresando al sitio. 
Nótese que el tamaño de muestra n(S) es aleatorio porque una muestra realizada 
mediante este mecanismo de selección puede incluir a todos los pasajeros o a ningún 
pasajero de la población. 


Definición 3.1.1. Siendo n(s) el tamaño de muestra, el diseño de muestreo Bernou- 
li selecciona la muestra s con probabilidad 


O es = y 2918) sis tiene tamaño igual a n(s) (8.1.1) 


0 en otro caso 


3.1.1 Algoritmo de selección 


La selección de una muestra con diseño Bernoulli conlleva los siguientes pasos: 


1. Fijar el valor de 7 tal que b<rT<l. 


2. Obtener e; para k € U como N realizaciones independientes de una variable 
aleatoria con distribución uniforme sobre el intervalo [0, 1]. 


3. El elemento k-ésimo pertenece a la muestra con probabilidad r. Es decir, si 
e < tr el individuo k-ésimo es seleccionado. 


Dado que ex > Unif[0, 1], se tiene que Pr(ez < r) = 1 para k € U. Por tanto, la 
inclusión de los individuos k-ésimo y l-ésimo, para k X l, es independiente. Esto 
implica que la distribución de 1,(S) es Bernoulli Ber() y se tiene el siguiente 
resultado. 


Resultado 3.1.1. Definiendo a (7, como el soporte que contiene a todas las po- 
sibles muestras de tamaño r, existen (e ) muestras pertenecientes a Q,. En otras 
palabras 
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N 
0)= (7) r=0,...,N 
Sin embargo, al definir (2 como el soporte general de todas las posibles muestras 
de tamaños entre r =0 y r = N, se tiene que 


H0)=Y (.) => 


r=1 


Resultado 3.1.2. Bajo muestreo Bernoulli, la distribución del tamaño de muestra 
n(S) es binomial Bin(N, 1) y 


Pr(n(S) =r) = Y > p(s) = (7) E y A (3.1.2) 


sEQr 


con r =1,...,N y Q, el soporte que contiene a todas las posibles muestras de 
tamaño r, donde (Q), C Q. 


Prueba. La distribución de 1, (S) es Bernoulli Ber(m), las inclusiones de los in- 
dividuos en la muestra son eventos independientes, entonces n(S) = >, 1; sigue 
una distribución binomial. Ahora, dado el diseño de muestreo (3.1.1), para cual- 
quier s € Q,, se cumple que p(s) = "(1 — )N=", Como existen maneras de 
seleccionar una muestra de r elementos de una población de tamaño N, se tiene 
que H(Q,) = (%). Luego, al sumar p(s) sobre todas las muestras del soporte Q,. 
se obtiene el resultado. n 


Como n(S) es aleatorio, existen 2N' posibles muestras en el soporte Q. Nótese que 
n(S) tiene una distribución Binomial y, por tanto, su esperanza y varianza están 
dadas por: 


Eln(S) = Nr Var(n(S) = N(M( -— m7), (3.1.3) 


Aunque el investigador haya fijado las probabilidades de inclusión, se puede verifi- 
car que realmente el diseño de muestreo Bernoulli cumple las condiciones estableci- 
das en el capítulo anterior y también que las probabilidades de inclusión, inducidas 
por el diseño de muestreo, son idénticas para cada elemento en la población 7, = T. 


Resultado 3.1.3. Bajo el diseño de muestreo Bernoulli, se verifica que 


S p(s)=1 (3.1.4) 


seQ 


Prueba. Para una población de tamaño N, el tamaño de muestra puede ser r 
con r =0,1,..., NV. Es suficiente probar que ie Pr(n(S) = r) = 1, utilizando 
el teorema binomial se tiene de inmediato porque n(S) = Bin(N, 7). Más aún, se 
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tiene que 


Y ns) = Y rs) + dns) +++ dos) 


seQ sEQo sEQi sEQN 
N N 
= (ma DMA] (iaa 
N 
N 
| E 
r 


Resultado 3.1.4. Para el diseño de muestreo Bernoulli, las probabilidades de 
inclusión de primer y segundo orden están dadas por: 


Tk ="T (3.1.5) 


T  parak=1l 
= 3.1.6 
e de Parak Al ( ) 


N-1 


2) muestras de tamaño r que con- 


Prueba. Teniendo en cuenta que existen ( 
tienen al elemento k-ésimo, tenemos 


Tk = y p(s) 


s>k 
scQ 
= Y p(s)+ Y ps) ++ p(s) 
s>k s>k s>k 
sCQo sCQ1 sCOn 
E N 1 N-1 N-1 N-1 
=0+( 0 ra Tr) + +(y-1)=0=m 
N-1 
N-1 
¿== y ( Ja _ ad 
r 
r=0 
1 


Donde se utiliza el resultado del teorema binomial (Mood, Graybill £ Boes 1974) 
que afirma que 


y 69 arb"” =(a+b)”. (3.1.7) 


r=0 


Ahora como las inclusiones de los elementos de la población en la muestra son 
eventos independientes, entonces 


Pr(ke S y le S) =Pr(l; =1)Pr(1, =1) = 10? (3.1.8) 
a 
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3.1.2 El estimador de Horvitz-Thompson 


Resultado 3.1.5. Para el diseño de muestreo Bernoulli, el estimador de Horvitz- 
Thompson, su varianza y su varianza estimada están dados por: 


A 1 
ty = - $ Yk (3.1.9) 
S 
A 1 
VarBarltyr)= € - 1) y Ye (3.1.10) 
U 


a Re 1/1 
v A PS cl 3.1.11 
arBrrÍ Y, ) A E JEn ( ) 
respectivamente 


Prueba. El resultado es inmediato porque 


E = mem 21 = k l 
am T¿T == 1%)=0 para k A (3.1.12) 


Tkk — TT = (1 — 71) para k=1 


luego la doble suma en la varianza del estimador de Horvitz-T'hompson pasa a ser 
una sola suma; lo anterior sucede análogamente con la expresión de la estimación 
de la varianza. | 


Nótese que en caso de que la muestra realizada o seleccionada esté compuesta 
por todas las unidades de la población, es decir se deba realizar un censd'] la 
probabilidad de inclusión para cada elemento de la población estaría dada por 
Tk = T. En este caso, el estimador de Horvitz-Thompson estaría dado por la 
siguiente expresión 


' 1 t 
ly == Y yr = 24 ty (3.1.13) 
U 


En este caso, el estimador de Horvitz-T'hompson es deficiente para la estimación 
del total poblacional t, y se sugiere la utilización del estimador alternativo para 
el total poblacional que, para el caso particular del diseño de muestreo Bernoulli, 
estaría dado por 

z ES s Yk 


tua = Nys = N 
y,alt Ys n(S) 


= Nys. (3.1.14) 


Fácilmente se verifica que si s = U, entonces ty alt = ty. 


Ejemplo 3.1.1. Para nuestra población de ejemplo U, existen 2? = 32 posibles 
muestras. Si la probabilidad de inclusión es fija para cada elemento e igual a 0,3, 
realice el cálculo léxico-gráfico del estimador de Horvitz-Thompson y compruebe 
el insesgamiento y la varianza. 


1En el diseño de muestreo Bernoulli, la probabilidad de seleccionar todas las unidades de la 
población en la muestra es equivalente a r/. 
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3.1.3 Marco y Lucy 


Suponga que se debe seleccionar una muestra con un diseño de muestreo Bernoulli. 
Se quiere que el tamaño esperado de muestra sea de Nr = 400 empresas del 
sector industrial. Como el tamaño de la población es N = 2396, entonces el valor 
que se fija para 7 es de 0.1669. Para seleccionar la muestra se utiliza la función 
S.BE(N,prob) del paquete TeachingSampling cuyos parámetros son N, el tamaño 
poblacional y prob el valor de la probabilidad de inclusión para cada elemento de 
la población. Esta función utiliza el algoritmo secuencial descrito en la anterior 
sección. 


Primero se carga en R el archivo Marco que contiene el marco de muestreo para 
la selección de la muestra. Se fijan los parámetros de la función, N y prob. Esta 
función devuelve un vector conteniendo el índice de los elementos seleccionados en 
la muestra. En este caso particular, el primer elemento seleccionado es el número 
2 y el último el número 2394. 


> data(Lucy) 
> attach(Lucy) 
> N <- dim(Lucy) [1] 
> pik <- 0.1669 
> sam <- S.BE(N,pik) 
> muestra <- Lucyl[sam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone 
2 ABO02 c1k2 Small A 
8 ABOO8 c1k8 Small A 
10 ABO10 c1ik10 Small A 
14 ABO14 c1k14 Small A 


2392 AB984 c26k16 Big 
2394 AB986 c26k18 Big E 
> n <- dim(muestra) [1] 

>n 

[1] 396 


E 


Aplicando los índices obtenidos por la función S.BE al marco de muestreo obte- 
nemos la identificación y ubicación de las empresas seleccionadas en la muestra. 
Nótese que el tamaño de muestra efectivo es de 396 empresas. Una vez que la 
etapa de recolección de datos se haya realizado, obtendremos un archivo de datos 
de Lucy conteniendo los valores de las características de interés para las empresas 
seleccionadas que será adjuntado a R mediante la función attach. 


La etapa de estimación de resultados se hace utilizando la función E.BE(y,prob) 
del paquete TeachingSampling cuyos argumentos son y, un vector o matriz con- 
teniendo los valores de las características de interés en la muestra y prob, la pro- 
babilidad de inclusión. En este caso la longitud de cada vector es de n = 396. 
Esta función arroja la estimación del total poblacional de y usando el estimador 
de Horvitz-Thompson, la estimación de la varianza y el coeficiente de variación del 
mismo. Por ejemplo, la variable Income contiene los valores del ingreso declarado 
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en el último año por 396 empresas del sector industrial pertenecientes a la muestra. 
La estimación para esta característica se hace mediante el siguiente código: 


> estima <- data.frame(Income, Employees, Taxes) 
> E.BE(estima,pik) 

Income Employees Taxes 
Estimation 1.003565e+06 1.450449e+05 2.898143e+04 
Variance 3.141990e+09 5.862754e+07 5.062942e+06 
CVE 5.585434e+00 5.278959e+00 7.763932e+00 


La tabla 3.1. muestra los resultados obtenidos para este caso particular, donde la 
desviación relativa de una estimación, medida en porcentaje está definida como 


t 


t paa 
DR = 100 x 27% (3.1.15) 
y 


Tabla 3.1: Muestreo Bernoulli: estimación de los totales de las características de 
interés. 


Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1003565 5.98 -3.06 
Empleados 151950 145044 5.27 -4.55 
Impuestos 28654 28981 7.76 1.14 


Nótese que, aunque la distribución asintótica del estimador de Horvitz-Thompson 
es normal, es necesario verificar el comportamiento del estimador con el tamaño 
de muestra esperado. Se realizaron varios experimentos de Monte Carlo con el 
propósito de tener un examen más cercano del estimador de Horvitz-Thompson 
del total de la característica Income en la población Lucy. El resultado de la simu- 
lación se muestra en los histogramas de la figura 3.1. Se espera que el promedio 
de las estimaciones en cada experimento coincida con el total poblacional y la 
varianza de éstas debe acercarse a la varianza basada en el diseño de muestreo 
Bernoulli. 


La media de las estimaciones de t, es 1035176 que ajusta bien con el parámetro 
correspondiente ty = 1035217. La distribución parece ser simétrica con forma de 
campana (los valores de la distribución teórica se muestran en la curva sólida 
y roja) y no se notan grandes discrepancias entre lo observado y lo teórico. En 
algunos casos, en donde el tamaño de muestra no es lo suficientemente grande, se 
debe verificar el comportamiento normal del estimador. 


3.2 Muestreo aleatorio simple sin reemplazo 


El muestreo aleatorio simple puede ser visto como la forma más básica de selección 
de muestras. Supone la existencia de homogeneidad en los valores poblacionales de 
la característica de interés. Partiendo de esta asunción, este diseño provee probabi- 
lidades de selección idénticas para cada una de las posibles muestras pertenecientes 
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Figura 3.1: Distribución muestral del estimador de Horvitz- Thompson bajo diseño 
Bernoulls. 


al soporte (2. Lohr (2000) cita un ejemplo al respecto del uso del diseño de muestreo 
aleatorio simple diciendo que, cuando la población es homogénea, el investigador 
no necesita examinar todos los elementos de la población así como el encargado 
del análisis médico no necesita obtener toda la sangre para medir la cantidad de 
glóbulos rojos. 


Una muestra aleatoria simple sin reemplazo de tamaño n se elige de modo 
que cada posible muestra realizada de tamaño n tenga la misma probabilidad de ser 
seleccionada. A diferencia del diseño de muestreo Bernoulli, el diseño de muestreo 
aleatorio simple sin reemplazo tiene la característica de ser de tamaño fijo. Una 
muestra aleatoria simple con reemplazo, de tamaño m de una población de 
N elementos es la extracción de m muestras independientes de tamaño 1, en donde 
cada elemento se extrae de la población con la misma probabilidad. 


Lehtonen éz Pahkinen (2003) afirman que este diseño de muestreo no es muy común 
en la práctica y básicamente desempeña dos funciones. Primero, plantean una línea 
de comparación de la eficiencia relativa con otros diseños de muestreo. Segundo, 
dentro de los diseños de muestreo más sofisticados como diseños de muestreo es- 
tratificado o diseños de muestreo por conglomerados, el muestreo aleatorio simple 
puede ser utilizado como un método final de selección de unidades primarias. 


Definición 3.2.1. Un diseño de muestreo se dice aleatorio simple sin reemplazo 
si todas las posibles muestras de tamaño n tienen la misma probabilidad de ser 
seleccionadas. Así, 


p(s) = (5 Al (3.2.1) 


0 en otro caso 
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Resultado 3.2.1. Definiendo a (Y como el soporte que contiene a todas las posibles 
muestras de tamaño n, existen E ) muestras pertenecientes a (). En otras palabras, 


+0)= (7) 


Nótese que > ¿eo p(s) =1 porque 4Q = ul 


3.2.1 Algoritmos de selección 


Durante muchos años, la teoría de muestreo se centró en la parte de la extracción 
de muestras aleatorias, más que en la construcción de los estimadores. Con la 
gran ventaja de los nuevos procesadores, lo anterior pasa a un segundo plano. 
A continuación se presentan dos métodos de selección de una muestra aleatoria 
simple de tamaño n de una población de tamaño N. Existen bastantes métodos 
de selección de una muestra aleatoria sin reemplazo, en esta sección se abordan 
dos algoritmos de selección. El primero da una asunción más simple, y puede ser 
comparado con el conocido método de la extracción de una balota; sin embargo, 
Tillé (2006) afirma que este método es ineficiente computacionalmente. El segundo 
método basado en un algoritmo secuencial, permite la selección de la muestra con 
una sola revisión del marco de muestreo. 


Método coordinado negativo 


Sunter (1977) ha probado que el siguiente método de ordenamiento aleatorio arroja 
como resultado una muestra aleatoria simple. Para extraer la muestra de tamaño 
n de un universo de N objetos, 


1. Generar N realizaciones de una variable aleatoria £j (k € U) con distribución 
uniforme (0,1). 


2. Asignar €x al elemento k-ésimo de la población. 


3. Ordenar la lista de elementos descendente (o ascendentemente) con respecto 
a este número aleatorio £z. 


4. A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta 
selección corresponde a la muestra realizada. 


Es necesario tener la seguridad de que exista un número grande de décimas en 
cada €x para evitar problemas de empates (números aleatorios repetidos). 


Método de selección y rechazo 


Fan, Muller €: Rezucha (1962) implementaron el siguiente algoritmo de muestreo 
secuencial (porque se recorre el marco de muestreo, elemento por elemento, y se 
decide la pertenencia o el rechazo del objeto en la muestra). Es interesante que, 
más tarde Bebbington (1975) trece años más tarde publica (en un artículo de una 
página) el mismo método, aunque sin escribir ninguna fórmula. 
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En general se supone que el marco de muestreo tiene NV individuos, y se quiere 
seleccionar una muestra aleatoria de n individuos. Así, para el individuo k (k = 
1,2,..., NV), se tiene que 


1. Realizar £z - U(0, 1) 


2. Calcular 
n— Nk 
== 
*N-k+1 
donde nz es la cantidad de objetos seleccionados en los k — 1 ensayos ante- 
riores. 


3. Si £x < cx, entonces el elemento k pertenece a la muestra. 


4. Detener el proceso cuando n = ng. 


Dado que este algoritmo se detiene cuando n = nz, resulta muy eficiente porque 
asegura una muestra aleatoria simple y en algunas ocasiones no se requiere recorrer 
todo el marco de muestreo. 


Ejemplo 3.2.1. Para seleccionar muestras aleatorias simples, R incorpora la fun- 
ción sample. Ésta, por defecto selecciona muestras sin reemplazo. Así, por ejemplo, 
para seleccionar una muestra aleatoria de tamaño n = 2, de la población de ejem- 
plo U de tamaño N = 5, sin reemplazo se tiene 


> sam <- sample(N, 2, replace=FALSE) 
> Ulsam] 
[1] "Ken" "Leslie" 


El algoritmo de selección y rechazo está implementado en la función S.SI del 
paquete TeachingSampling cuyos argumentos son el tamaño de la población N, el 
tamaño de muestra deseado n y un vector de números aleatorios e que, por defecto, 
se asigna mediante la generación de N realizaciones de una variable aleatoria con 
distribución uniforme en el intervalo JO, 1[. 


Para seleccionar una muestra aleatoria sin reemplazo de tamaño n = 2 por el 
método de selección y rechazo, de la población de ejemplo U de tamaño N = 5, 
sólo basta digitar el siguiente código. 


> sam <- S.SI(N, 2) 
> Ulsam] 
[1] "Erik" "Leslie" 


Nótese que el resultado de la función S.SI es un vector de índices, que aplicados 
al identificador resulta en una muestra seleccionada que está conformada por los 
elementos Erik y Leslie. 


La siguiente salida muestra cada uno de los N=5 pasos del algoritmo. Los números 
aleatorios que se utilizaron están en la columna llamada ek y los índices de la 
muestra seleccionada están en la columna san. 
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k Nombre ek ck nk sam 
1 Yves 0.4938 0.4000000 0 0 
2 Ken 0.7044 0.5000000 0 0 
3 Erik 0.4585 0.6666667 1: 3 
4 Sharon 0.6747 0.5000000 1 0 
5 Leslie 0.8565 1.0000000 2 5 


Resultado 3.2.2. El diseño de muestreo Bernoulli coincide con el diseño de mues- 
treo aleatorio simple sin reemplazo cuando el tamaño de muestra se considera fijo 
e igual a n. 


Prueba. Utilizando las propiedades de la probabilidad condicional se tiene que 


Pr(S=s y n(S) =n) 
Pr(n(S) =m) 
m(1-mN. 1 


IU 


n 


Pr(S = s|In(S) = n) = 


el cual coincide con la expresión (3.2.1). E 


Una consecuencia inmediata del anterior resultado es que otro método de selección 
de muestras para un diseño de muestreo Bernoulli es escoger aleatoriamente el 
tamaño de muestra de acuerdo a una distribución binomial Bin(N, 7) y luego 
seleccionar una muestra mediante uno de los anteriores algoritmos de selección de 
muestras aleatorias simples sin reemplazo (Tillé 2006). 


3.2.2 El estimador de Horvitz-Thompson 


Resultado 3.2.3. Para un diseño de muestreo aleatorio simple, las probabilidades 
de inclusión de primer y segundo orden están dadas por: 


n 
Mo= y (3.2.2) 
n(n— 1) 
= 3.2.3 
A (3.23) 
respectivamente. La covarianza de las variables indicadoras está dada por 
-—__n (N-n) 
Tk TT == BH ANH parakAl 
Ar = MS E E (3.2.4) 
Tel) = 52 para k =1l 


Prueba. Recurriendo a la definición de probabilidad de inclusión de primer orden, 
se tiene que 


Tk = Pr(Ig(S) = 1) 
Mie 
N 


(e) 
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por otro lado, 


5) =1 y £(5) =1) 

5) = 1115) =1)Pr(1(s) =1) 
n=1 mn n(n— 1) 

N=1N" N(N=1) 


Resultado 3.2.4. Para un diseño de muestreo aleatorio simple, el estimador de 
Horvitz-Thompson del total poblacional t,, su varianza y su varianza estimada 
están dados por: 


A N 
Ss 
2 N? n 9 
VarmasÍlty,r) — 2 (1 E 5) Syu (3.2.6) 
— a N? n 2 
Varmasltyr) = E (1- y) Ss? (3.2.7) 
respectivamente, con 
ll Ñ 
Sjv = N=1 S (Y — YuY”, (3.2.8) 
keU 


la varianza poblacional de la característica de interés en el universo U y con 


= S yr = Us)” (3.2.9) 


kes 


2. 


la varianza muestral de los valores de la característica de interés en la muestra 
aleatoria S. Además, Ys = 25% Por otro lado, nótese que ty, es insesgado para 


n 
el total poblacional ty de la característica de interés y, y que Varmasltyn) es 
insesgado para VarmasÍlty,r)- 


Prueba. Por el resultado anterior, tenemos 
A Uk N 
a=o ===> ] 3.2.10 
Y, — Ti n 4 Yk ( ) 


La demostración de las varianzas es inmediata al reemplazar las cantidades apro- 
piadas en la expresión genérica del capítulo anterior y teniendo en cuenta que 


22000 2D 80 2 = (En) -En 


kAl 
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De tal forma que, 
AS N? 
Var(ty)= 2 Var STi (s)Yr 
U 


==> y Var(I1(s)yí + de DE Cov (11 (5), I1(s)) YY 
U 


k4 
MN (N-1) Y y (En) - Y ye 
U U U 
NN nm) 1 ñ d 
y (ar (E a) 


N? n 9 
== (1 5) Só 


Para demostrar el insesgamiento de la varianza estimada es suficiente demostrar 
2 053 2 
que Sy, es insesgado para Sy. 


ll E 
E(S;s) E (5 Y Y NUS 


l 
3 
pj 
fai 
RS A NR 


En donde se utilizó el hecho de que ys = ho y además 


Eltyn)? = Var(É, ) - AA 
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Ejemplo 3.2.2. Para nuestra población de ejemplo U, existen (5) = 10 posi- 
bles muestras de tamaño n = 2. Realice el cálculo léxico-gráfico del estimador de 
Horvitz-Thompson y compruebe el insesgamiento y la varianza. 


3.2.3 Estimación de la media poblacional 


Resultado 3.2.5. Para un diseño de muestreo aleatorio simple, el estimador de 
Horvitz- Thompson para la media poblacional yy, su varianza y su varianza esti- 
mada están dados por: 


ES Í ,T Uk TL 
ÓN 0 = Us (3.2.11) 
sn 1 ze ny Ss? 
Varmas[yr) — a V arlty,n) + (1 A 0) a (3.2.12) 
ss Ñ 1 > ny 82, 
Varmas(Yn) = 53 Var(tyn) = (1 ES y) a (32:13) 


respectivamente, con Sóu y rl el estimador de la varianza de los valores de la ca- 
racterística de interés y en el universo y en la muestra. Nótese que ty, es insesgado 


para el total poblacional t,, de la característica de interés y, y que Varmaslty,x) 
es insesgado para Varmas (ty). 


Nótese que la construcción, cálculo y estimación de la varianza son muy intuitivas. 
Haciendo un símil con la inferencia clásica, suponga que tenemos una muestra 
aleatoria X1,..., Xn 1:i.d., tal que X; = (u,0?). Se sabe que un estimador inses- 
gado para la media es X, además se sabe que la variación de este estimador es 
g 


n 


n 
Al operador (1 = 5) se le conoce con el nombre de factor de corrección para 


poblaciones finitas. Sólo existe una sola muestra que contiene a todos los ele- 
mentos de la población, por tanto, si esa muestra es seleccionada, esperamos que 
no haya variación en el estimador pues reproducirá con exactitud al parámetro, 
por tanto la varianza del mismo se debe anular. Entre más grande sea el tamaño 
de muestra n, al utilizar un diseño de muestreo aleatorio simple, la variabilidad 
de las estimaciones se debe hacer más pequeña dado que la muestra tenderá a 
parecerse más a la población finita. Lohr (2000) afirma que el tamaño de muestra 
es el que determina la precisión de las estimaciones (no así, el porcentaje de la 
población muestreada): 


Si su sopa está bien revuelta, sólo necesita dos o tres cucharadas para 
probar el sazón, así tenga uno o veinte litros de sopa. Una muestra de 
tamaño n = 100 de una población de N = 100mal elementos, tiene 
casi la misma precisión que una muestra de tamaño n = 100 de una 
población de N = 100millones de elementos: 


2 
99900 Sju _ 0.999 Syu 
100000 100 + 100 


1. Para el primer caso, Varmas(Yr) = 


2 
216 2 y _ 9999900 Syu _ Syu 
2. Para el último caso, Varmas(Yr) = 00000000 190 = 0.999999 55 
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Tamaño de muestra 


Bajo muestreo aleatorio simple sin reemplazo, un intervalo de confianza de 100(1— 
a) % para la media de la población es: 


_ NA SyU - Ny Suu 
DE Jn, 3 (1- un 3.2.14 
ys 21-a/2 ( NA Ys + 21-a/2 Nin ( ) 
y como usualmente no se conoce ds lo usual es sustituirlo por el valor muestral 
Se Por lo general, sólo los investigadores del estudio pueden decidir sobre la 


precisión mínima del mismo. Esta se expresa como: 


Pr(lys — Yu| <c)=1—a 


Por tanto, la cantidad a minimizar es c, 


c= 21-0a/2 (1 = 5) 77 (3.2.15) 
y despejando n, se tiene: 


no 
n> 


2. (3.2.16) 


2 2 
21_a/22 A 5 
con ny = =“£%%L La desigualdad se tiene porque cuando se aumenta el tamaño 


de muestra, c decrece su valor. En algunas ocasiones se quiere lograr una precisión 
relativa dada por: 
P ( < e) =1-a 


que se puede escribir equivalentemente como: 


Ys — YU 
YU 


P (lús — Yu| < clyu|) =1— 0 


la cantidad a minimizar es: 


Ñ NA Suu 

cdul = 21-ay2 (1 Z 5) = (3.2.17) 

y despejando n, se tiene: 

k 
n> —= (3.2.18) 
14% 
2 52 2 cv? 

con ky = == = AE . La desigualdad se tiene porque cuando se au- 


menta el tamaño de muestra, c|yy| decrece su valor. 


Bajo un diseño aleatorio simple, un intervalo de confianza del 100(1 — a«%) para 
la media poblacional yyy puede ser escrito como 


Ys (1 + A) (3.2.19) 
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Donde A está dada por 


A=éej (1 E —) a (1 E —) Ea (3.2.20) 


Asumiendo que CV = cv y que z; es una cantidad despreciable, podemos deter- 


minar un tamaño de muestra para mantener una precisión dada. Por tanto A se 
reescribe como 
z CV 
A= Zi_a 1272 


yn 
y despejando n, tenemos que 


3 cv? 
1 Ao aq 
Con un nivel de confianza del a = 5%, asumiendo que el coeficiente de variación 
estimado converge al coeficiente de variación poblacional y que la fracción de 
muestreo es despreciable para obtener una precisión A < 3% si a) CV = 0.5, el 
tamaño de muestra debe ser mayor que 1067 unidades; b) CV = 1.0, el tamaño de 
muestra debe ser mayor que 4268 unidades y c) CV = 1.5, el tamaño de muestra 
debe ser mayor que 9604 unidades. Es decir, entre más dispersa sea la población, 
con respecto a la media, mayor debe ser el tamaño de muestra para conseguir una 
precisión dada. 


Para poder utilizar las anteriores fórmulas es necesario contar un buen tamaño de 
muestra, dado que el teorema central del límite clásico (universo infinito) no es el 
mismo que se ha aplicado aquí. Hájek (1960) demuestra que al utilizar muestreo 
aleatorio simple (universo finito) y bajo ciertas condiciones de regularidad conoci- 
das como las condiciones de Noether y si n, N, y N — n son grandes, es decir la 
fracción muestral f =n/N se aleja de O y de 1, entonces 


Ys — Yu 
(1-7 


> Normal(0, 1) 


Cuando se quiere establecer un intervalo de confianza, la confiabilidad del intervalo 
está garantizada por el insesgamiento del estimador de Horvitz-Thompson. Para 
asegurar determinada precisión es necesario conocer la varianza poblacional de 
la característica de interés o el coeficiente de variación del estimador; en estos 
términos, cuando el coeficiente de variación estimado (cve) es menor del 3% es un 
caso excelente; entre el 3 y el 5% es bueno; entre el 5 y el 10% es regular; entre el 
10 y 15% es apenas presentable; si es más del 15% no es considerado bueno; en 
este caso algunas agencias de estadísticas oficiales no presentan el coeficiente de 
variación, aunque se conozca. 


Por supuesto, algunas cantidades poblacionales necesarias para estimar el tamaño 
de muestra no se conocen; de hecho, si se conocieran, no habría necesidad de reali- 
zar estudio alguno, porque directamente se conocerían los parámetros poblaciona- 
les de interés. Lohr (2000) considera tres escenarios para realizar una estimación 
previa de los parámetros de interés: 
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8l 


1. Realizar una prueba piloto, unas cuantas entrevistas conforman la muestra 


piloto, seleccionada con el mismo diseño de muestreo genérico. En algunas 
ocasiones, este método además de servir para estimar las cantidades necesa- 
rias para establecer el tamaño de muestra, sirve para confrontar y calibrar el 
instrumento de medición, ya sea un cuestionario o un instrumento técnico. 


. Utilizar información a priori de estudios anteriores. No siempre el investiga- 
dor que realiza un estudio por muestreo ha sido el primero en cuestionarse 
acerca de los objetivos de la investigación. Si esto es así, existen referencias 
bibliográficas disponibles, en donde se pueden hallar estimaciones de la va- 
rianza poblacional o del error estándar. Esta última medida tiende a ser más 
estable contra el tiempo o posición geográfica. 


. Estimar la varianza ajustando una distribución teórica a la característica de 
interés. Ospina (2001) afirma que este ajuste se hace con base en supuestos 
adecuados acerca de la estructura poblacional de la característica de interés 
(normal, exponencial, uniforme, etc.). La identificación de una distribución 
apropiada permite hacer uso de sus propiedades para obtener una estima- 
ción más realista de la varianza. Cuando el desconocimiento es absoluto, se 
recomienda utilizar la distribución uniforme. Wu (2003) afirma que las ca- 
racterísticas de interés en poblaciones económicas son sesgadas a la derecha 
y tienden a ser modeladas mediante distribuciones como la Gamma o la Ji 


cuadrado. 


3.2.4 Estimación en dominios 


El primer caso concerniente a la estimación de subgrupo poblacionales es el de las 
sub-poblaciones llamadas dominios. En muchas investigaciones es necesario llevar a 
cabo estimaciones sobre la población en general, y también sobre subgrupos de ella 
(denominados dominios por la subcomisión en muestreo de las Naciones Unidas). 
La identificación de los dominios se logra una vez la información de los elementos 
ha sido registrada. Los dominios tienen que cumplir las siguientes características: 


1. Ningún elemento de la población puede pertenecer a dos dominios. 
2. Todo elemento de la población debe pertenecer a un único dominio. 


3. La reunión de todos los dominios es la población del estudio. 


Por ejemplo, al estimar el total de la fuerza laboral en empresas con menos de 
dos años de funcionamiento. Claramente la población se divide en dos dominios; 
el primero concerniente a las empresas con menos de dos años de funcionamiento 


y el segundo dado por las empresas con dos años o más de funcionamiento. 


Definición 3.2.2. Un dominio U¿ es una sub-población específica o subgrupo 


poblacional que cumple las siguientes condiciones: 


1. U¿CU, tal que U =UZ_, Ua 


2. Sik € U;, entonces k € Uy paradXHl 
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3. El número de elementos en el dominio U¿ es Ny y es llamado tamaño ab- 
soluto del dominio. 


4. La proporción de elementos en el dominio U¿ con respecto al tamaño pobla- 


. d p : E 
cional es Py = y Y se conoce como tamaño relativo del dominio. 


La estimación por dominios se caracteriza por el desconocimiento de la pertenencia 
de las unidades poblacionales al dominio. Es decir, para conocer cuáles unidades 
de la población pertenecen al dominio, es necesario realizar el proceso de medición. 


Fue Hartley (1959) quien desarrolló y unificó la teoría de la estimación en domi- 
nios aplicable a cualquier diseño de muestreo. Durbin (1967) obtuvo resultados 
similares. Las pautas para la estimación en dominios se dan a continuación: para 
estimar el total de un dominio U¿g, dado por 


0 (3.2.21) 
Ud 


es necesario, en primer lugar construir una función indicadora zZgx, para cada ele- 
mento de la población, de la pertenencia del elemento al dominio, dada por la 
siguiente definición. 


Definición 3.2.3. Sea zaz la función indicatriz del dominio U¿, dada por 


1 sik€U, 
Zak = e (3.2.2) 
0 en otro caso 


Ahora, al multiplicar la variable de pertenencia zgx por el valor de la característica 
de interés yx, se crea una nueva variable ya dada por Yax = ZaxkYx, y Una vez 
construida se pueden utilizar los principios del estimador de Horvitz-Thompson 
para hallar un estimador insesgado del total de la característica de interés en el 
dominio Uq. 


Resultado 3.2.6. El total de la variable de interés en el dominio U¿ está dado 
por 


tya = Y Yar, (3.2.23) 
U 
el tamaño del dominio U¿ toma la siguiente expresión 
Na = e Zdk> (3.2.24) 
U 


de tal forma que la media de la característica de interés en el dominio Uy se escribe 
como y 
a tud v Yak 
= _—_— == — 3.2.25 
YUa Na Na ( ) 


Estimación del total en un dominio 


Resultado 3.2.7. Bajo muestreo aleatorio simple sin reemplazo, el estimador de 
Horvitz-T' hompson para el total del dominio t,a, su varianza y su varianza estimada 
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están dados por 


, N N 
byarn =D Ya = — Dr (3.2.26) 
di Ss de Sa 
A N? n 9 
Var(tya,r) = q (1 - 5) Suu (32,27) 
— os N? n 
Var(tyan) == (1 El 5) Se (3.2.28) 


respectivamente, donde Sa = Ug MN S se refiere al conjunto formado por la inter- 
sección de la muestra S. Además, 


vs (En Ydk — Deia ) 


keU 


representa la varianza poblacional de la característica de interés y 


Ss = (Eu Yak — Oupestió das) ) 


kes 


la varianza muestral de los valores de la característica de interés. 


Nótese que en la expresión SS e.U los valores que intervienen son los de la carac- 
terística de interés si el elemento pertenece al dominio y ceros si el elemento no 
pertenece al dominio, lo mismo sucede con ma s- Por tanto, las anteriores expre- 
siones van a tomar valores grandes por la inclusión de los ceros; éste es el precio 
que se debe pagar por el desconocimiento de la pertenencia de los elementos a los 
dominios. 


Estimación del tamaño absoluto de un dominio 


Resultado 3.2.8. Bajo muestreo aleatorio simple sin reemplazo, el estimador de 
Horvitz- Thompson para el tamaño absoluto de un dominio Nq¿, su varianza y su 
varianza estimada están dados por 


ZN N 
Ñan == y Zak = — y Zk (3.2.29) 
a Ss Ñ Sa 
a N? n 
Var(Ñan) = — (1 e —) e (3.2.30) 
a N? 
Var(Ñan) = (1 E y) 2. (3.2.31) 


respectivamente, con SA, uy e la varianza poblacional y la varianza muestral 


de los valores de la característica de interés zax.. 


Nótese que en la expresión Sy los valores que intervienen son unos si el elemento 
pertenece al dominio y ceros si el elemento no pertenece al dominio, lo mismo 


2 
sucede con Ss. 
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Estimación del tamaño relativo de un dominio 


Resultado 3.2.9. Bajo muestreo aleatorio simple sin reemplazo, el estimador de 
Horvitz- Thompson para el tamaño relativo de un dominio Pq, su varianza y su 
varianza estimada están dados por 


E iÑ 1 na 
Par =>) 2 =D) 2 = (3.2.32) 
Ss Ss 
a 1 n 9 
Var(Pan) => (1 E y) a (3.2.33) 


Var(Ban) = - (1 E 7) y? (3.2.34) 


respectivamente, con Su y Do el estimador de la varianza de los valores de la 


característica de interés yg en el universo y en la muestra. 


Estimación de la media de un dominio 


Resultado 3.2.10. Bajo muestreo aleatorio simple sin reemplazo, el estimador 
de Horvitz-Thompson para la media de la característica de interés en un dominio 
Yu, Su varianza y su varianza estimada están dados por 


N 
2 mn Ydk 
YU = E (3.2.35) 
2 1 N? NN a 
Var(Yuar) = ma (1 a 7) SU (3.2.36) 
a 1 N? AN ca 
Var(Yu,r) = Nim (1 = 5) Sá (3.2.37) 


Para poder utilizar el anterior estimador, es necesario conocer de antemano el valor 
del tamaño absoluto del dominio Ng. En la práctica, pocas veces se conoce este 
valor, por lo tanto un estimador alternativa y completamente intuitivo de la media 
de la característica de interés en un dominio es la media muestral de la misma en 
el dominio de interés. De tal forma que el estimador alternativo, toma la siguiente 
expresión 


p= tii == OS Ydk E Ys. Yk 
% Nan Zdk Ra 


(3.2.38) 


Como las dos cantidades en el numerador y denominador son aleatorias, se está 
estimando una razón, de tal manera que el cálculo y estimación de la varianza del 
anterior estimador están fuera del alcance de este capítulo, y serán explicados en 
los lugares donde sea conveniente. 
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3.2.5 El efecto de diseño 


Una medida que compara la eficiencia entre dos estrategias de muestreo es el efecto 
de diseño. Ésta herramienta práctica muestra la ganancia o pérdida, de precisión, 
al utilizar una estrategia de muestreo más compleja que un diseño aleatorio simple 
sin reemplazo junto con el estimador de Horvitz-Thompson y está definida de la 
siguiente manera: 


Definición 3.2.4. Siendo (T,p(-)) y (Ts, MAS) dos estrategias de muestreo uti- 
lizadas para la estimación del parámetro T', se define el efecto de diseño como 


Varp(T) 
VarmasTr 


Deff= (3.2.39) 


en particular, el efecto de diseño, restringido a la estimación de un total poblacional 
y al usar el estimador de Horvitz-Thompson en ambas estrategias, toma la siguiente 
forma 


Varplty.) 
Deff = + PE 
A 


Cuando el efecto de diseño es más grande que la unidad, la varianza de la estra- 
tegia del numerador es más grande que la denominador, por tanto, se ha perdido 
precisión al utilizar una estrategia de muestreo más compleja; si el cociente es 
menor que uno, se ha ganado precisión. Fue Cornfield (1951) quien sugirió evaluar 
la eficiencia de una estrategia de muestreo al hacer el cociente entre la varianza 
de la misma y la del diseño aleatorio simple sin reemplazo con el estimador de 
Horvitz-Thompson. Más adelante Kish (1965) lo llamo DEFF (efecto de diseño, 
por sus siglas en inglés). 


(3.2.40) 


Sin embargo, en la mayoría de ocasiones, el cálculo de este cociente no es sencillo. 
Lehtonen € Pahkinen (2003) plantea una estimación del efecto de diseño para 
totales mediante la estimación de las varianzas que intervienen en la expresión. De 
esta forma, se tiene 


Resultado 3.2.11. Un estimador del efecto de diseño Def f para el total pobla- 
cional t, es 


(3.2.41) 


No todos los parámetros tienen el mismo comportamiento, por lo tanto, los efec- 
tos de diseño para estos no tendrán un mismo criterio de optimalidad. Es decir, 
si existe un criterio de optimalidad con respecto a un parámetro, digamos el to- 
tal poblacional t,, no necesariamente se cumplirá ese criterio con un parámetro 
distinto, digamos la mediana poblacional. 


Dado que el tamaño de muestra en diseños diferentes al muestreo aleatorio simple 
sin reemplazo puede ser variable, es necesario asegurarse que n = Ey asín(S)) = 
Ep(n(S)) para que exista un punto objetivo de comparación. Por ejemplo, para 
comparar la eficiencia del estimador de Horvitz-Thompson en el diseño de muestreo 
Bernoulli, es necesario fijar el tamaño de muestra, dado que este diseño no es de 
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tamaño fijo; es decir que n = Emasín(S)) = Epgrin(S)) = Nr. Por lo que 
resulta que Tr =nN/N. 


De esta manera podemos introducir la medida de eficiencia del diseño de muestreo 
Bernoulli con respecto al MAS, así 


Varperltyr) ef 1 dá 1 EY 1+ 1 
Varmaslty,r) N Cv, Cv; 


deff = (3.2.42) 


Por tanto, si el efecto de diseño def f es igual a 1.8, esto implica que la varianza 
del 7 estimador bajo diseño de muestreo Bernoulli es 1.8 veces la varianza del 7 
estimador bajo MAS. 


3.2.6 Marco y Lucy 


Una de las razones por las que el gobierno realiza la encuesta de crecimiento 
económico del sector industrial es, no sólo para medir el impacto social e impositivo 
sino para buscar nuevas estrategias de crecimiento enfocadas en las empresas que 
conforman este sector. Recientemente, con el boom de la tecnología y el uso masivo 
de internet, las estrategias de mercadeo han cambiado su forma y su fondo. 


Hace unos años, las empresas con un rendimiento muy alto, catalogadas dentro de 
un nivel industrial grande, podían acceder a pautar un comercial discreto de 900 
TRP"P] en televisión, mientras que las empresas medianas tenían un presupuesto 
con el cual apenas podían pautar un comercial en la radio. Por supuesto, la es- 
trategia publicitaria de las empresas pequeñas consistía en editar un aviso en las 
páginas amarillas. 


Sin embargo, a medida que cambia y evoluciona la tecnología, también lo hacen los 
hábitos de las personas. Es muy común que las operaciones financieras, contables 
y estratégicas de una empresa estén centradas en un servidor conectado a internet. 
La misma comunicación verbal ha sido reemplazada por altos estándares de tec- 
nología mediante conversaciones virtuales, la comunicación oficial ha desplazado 
el casillero de correo postal por el correo electrónico que permite la recepción en 
tiempo real de mensajes sin importar la ubicación espacio temporal del receptor 
ni de la persona que envía el mensaje. Siendo así, las personas pasan más tiempo 
frente a un computador que frente al televisor, o escuchando la radio; las páginas 
amarillas están siendo reemplazadas por los meta-buscadores de la red mundial de 
información, gigantes como Google, Yahoo y MSN. 


Los gerentes de mercadeo (en los casos pertinentes) junto con los presidentes o 
gerentes de las empresas del sector industrial, han replanteado sus viejas estrate- 
gias publicitarias y han hecho, poco a poco, la migración de canal publicitario. Las 
empresas grandes siguen pautando en televisión, las empresas medianas siguen ha- 
ciéndolo en la radio y las pequeñas siguen teniendo el mismo viejo aviso clasificado 
en la sección de las páginas amarillas. Sin embargo, en todos los niveles del sector 
industrial, se ha empezado a realizar una mejor gestión de sus clientes y/o de sus 
potenciales clientes. 


2Puntos acumulados de rating del grupo objetivo obtenidos considerando sólo consumidores 
viendo el comercial de televisión de una marca dada 
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Las empresas están utilizando listas de correo electrónico masivas para dar a co- 
nocer las ventajas competitivas de sus empresas, mediante el envió de portafolios 
virtuales de los productos y servicios que brindan. Se cree que esta práctica de 
mercadeo ha aumentado la productividad empresarial porque por medio de la 
publicidad por internet o SPAM, las empresas consiguen más clientes, por lo tan- 
to consiguen más contratos, por tanto ayudan a la disminución del desempleo y 
obtienen ventajas fiscales. 


El gobierno quiere corroborar esta hipótesis y dependiendo de los resultados del 
estudio implementar un programa de capacitación gratuita a las empresas que 
aún no han entrado en el ámbito de la información mediante el uso masivo de la 
red informática internet. El presupuesto del gobierno es de unos cuantos millones 
de dólares, por lo tanto se necesitan estimaciones muy precisas que respondan al 
objetivo de la investigación. 


Estimación del tamaño de muestra 


La estrategia de muestreo que se va a utilizar es la siguiente: el estimador de 
Horvitz-Thompson aplicado a un diseño de muestreo aleatorio simple sin reempla- 
zo. Se selecciona una muestra piloto de tamaño 30 de la población. Para esto, una 
vez cargado el archivo de datos Lucy, utilizamos la función sample para extraer 
la muestra piloto. Como la característica de interés es el ingreso de las empresas, 
tomamos los valores de la varianza y de la media como estimaciones que servirán 
para el cálculo del tamaño de la muestra. 


data (Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 
sam <- sample(N,30) 


VWVvVvyv 


> Ingresopiloto <- Income[sam] 
> var(Ingresopiloto) 

[1] 66952.62 

> mean(Ingresopiloto) 

[1] 455 


Los valores que se utilizarán en la estimación del tamaño de muestra son la varianza 
muestral igual a 66.952, el promedio muestral igual a 455; con estos valores se tiene 
una estimación del coeficiente de variación igual a 0,57. Se debe escoger un tamaño 
de muestra que proporcione estimaciones precisas, el tamaño de muestra depende 
de la precisión que se requiera para cumplir con los objetivos del estudio. 


Error absoluto: el margen de error para este estudio es de 25 millones de 
dólares. 


e Nivel de confianza del 95 %. 


Mediante (3.2.16)) se tiene que ng = 411. 


e Al utilizar el factor de corrección de poblaciones finitas, llegamos a que n > 
351. 
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Sin embargo, este cálculo se puede cotejar restringiendo las estimaciones mediante 
un error relativo. 


e Error relativo: se requieren estimaciones con menos del 7% de error. 


e Nivel de confianza del 95% y una estimación de CV = 0.57. 


e Mediante (3.2.18) se tiene que koy = 446. 


e Al utilizar el factor de corrección de poblaciones finitas, llegamos a que n > 
376. 


Suponga que mediante fuentes oficiales se ha tenido acceso a información de es- 
tudios pasados que han modelado la característica de interesé Income utilizando 
la familia de distribuciones Gamma con parámetro de forma 2,7 y parámetro de 
escala 180. Haciendo una simulación de N = 2396 valores provenientes de una 
distribución gamma con los anteriores parámetros, se pueden estimar los valores 
de la varianza para la característica de interés y así una estimación del tamaño de 
muestra. 


Distribución teórica 


Density 


Ingreso 


Figura 3.2: Distribución teórica de la característica de interés: Ingreso. 


> teo <- rgamma(N,shape=2.7,scale=180) 
> mean(teo) 

[1] 484.4221 

> var(teo) 

[1] 92292.3 

> sdí(teo)/mean(teo) 

[1] 0.6271318 


La determinación del tamaño de muestra para esta investigación utilizando la 
estrategia de muestreo mencionada al principio de la sección y consideraciones 
respecto a que la estimación de la varianza de la muestra piloto puede ser pequeña, 
da como resultado una muestra de tamaño n = 400 empresas del sector industrial. 
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Como el tamaño de la población es N = 2396, entonces el valor de la probabilidad 
400 

de inclusión para todos los elementos es de mr = 2306 20.17. 

R incorpora la función sample para la selección de muestras con o sin reemplazo. En 

este caso puede ser utilizada como en la selección de la muestra piloto. Sin embargo, 

para seleccionar una muestra mediante el algoritmo de selección y rechazo, el 

paquete TeachingSampling adjunta la función S.SI que se utilizará en la selección 


de 400 empresas del sector industrial. 


Primero se carga en R el archivo Marco que contiene el marco de muestreo para 
la selección de la muestra. Se fijan los parámetros de la función, N y pik. Esta 
función devuelve un vector conteniendo el índice de los elementos seleccionados en 
la muestra. En este caso particular, el primer elemento seleccionado es el número 
7 y el último el número 2395. 


> data(Lucy) 
> attach(Lucy) 
> N <- dim(Lucy) [1] 
> n <- 400 
> sam <- S.SI(N,n) 
> muestra <- Lucylsam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone 
7 ABOO7 c1k7 Small A 
18 ABO18 c1k18 Small A 
21 ABO21 c1k21 Small A 
2385 AB912 c26k9 Big E 


2395 AB987 c26k19 Big E 
> n <- dim(muestra) [1] 

>n 

[1] 400 


Aplicando los índices obtenidos por la función S.SI al marco de muestreo obtene- 
mos la identificación y ubicación de las empresas seleccionadas en la muestra. Una 
vez que la etapa de recolección de datos se haya realizado; es decir, la medición de 
todos y cada uno de los elementos seleccionados ya ha sido realizada, se realiza la 
estimación. Obtendremos un archivo de datos de Lucy conteniendo los valores de 
las características de interés para las empresas seleccionadas que será adjuntado a 
R mediante la función attach. 


La etapa de estimación de resultados se hace utilizando la función E.SI(N,n,y) 
del paquete TeachingSampling cuyos argumentos son y, un vector conteniendo los 
valores de la característica de interés en la muestra, N el tamaño de la población 
y n el tamaño de la muestra seleccionada. En este caso la longitud de cada vector 
es de n = 400. Esta función arroja la estimación del total poblacional de y usando 
el estimador de Horvitz-T'hompson, la estimación de la varianza y el coeficiente 
de variación del mismo. Por ejemplo, la variable Income dentro del objeto estima 
contiene los valores del ingreso declarado en el último año por 400 empresas del 
sector industrial pertenecientes a la muestra. La estimación para esta característica 
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se hace mediante el siguiente código: 


> estima <- data.frame(Income, Employees, Taxes) 


> E.SI(N,n,estima) 


Income Employees Taxes 
Total estimado 1.009531e+06 1.497680e+05 2.607747e+04 
Varianza 7.345608e+08 1.206152e+07 2.079223e+06 


coeficiente de variación 2.684691e+00 2.318900e+00 5.529491e+00 


Tabla 3.2: Muestreo aleatorio simple: estimación de los totales de las características 
de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1009531 2.68 -2.48 
Empleados 151950 149768 2.31 -1.44 
Impuestos 28654 26077 9.92 -8.99 


La tabla 3.2. muestra los resultados obtenidos para este caso particular. Nótese 
que se obtienen mejores resultados que al utilizar un diseño de muestreo Bernoulli. 
Sin embargo, comparar estos resultados de ingreso total en el sector industrial con 
el de las mediciones pasadas, no es suficiente y se desea tener estimaciones para el 
dominio o subgrupo de las empresas que utilizan el envío de SPAM como estrategia 
publicitaria. 


La función Domains contenida en el paquete TeachingSampling es utilizada para 
obtener las variables indicadoras Z¿% para cada dominio, el único argumento de 
la función es un vector de pertenencia de cada individuo. En este caso, el vector 
de pertenencia es SPAM, la salida de esta función es una matriz de unos y ceros, 
en donde cada columna está dicotomizada. Existen tantas columnas como subgru- 
pos poblacionales, y en cada columna el número uno implica la pertenencia del 
elemento al dominio y cero la no pertenencia del elemento al dominio. 


> Dominios <- Domains(SPAM) 
> Dominios 


no yes 
[1,] O. 1 
[2,] O 1 
[3,1] 1 0 


[400,1 0 1 


Para estimar el tamaño absoluto de cada dominio, lo único que se debe hacer es 
multiplicar la matriz de características de interés (en este caso, la matriz llamada 
estima) por cada columna de la matriz resultante de la dicotomización. La si- 
guiente salida lo muestra claramente para el dominio de la población que sí utiliza 
el SPAM como método publicitario. 


3.2. Muestreo aleatorio simple sin reemplazo 91 


> SPAM.si <- Dominios[,2]x*estima 


> SPAM.si 
Income Employees Taxes 
1 490 22 10.5 
342 40 5.0 
3 0 0 0.0 
400 1640 225 169.0 


Mientras que para el dominio que no utiliza el SPAM se tiene la siguiente salida 


> SPAM.no <- Dominios[,1]x*estima 


> SPAM.no 

Income Employees Taxes 
1 0 0 0.0 
2 0 0 0.0 
3 381 94 6.0 
400 0 0 0.0 


Utilizando la función E.SI en la matriz resultante de la dicotomización obtene- 
mos las estimación de los tamaños absolutos de cada dominio. En este caso, se 
estima que 1420 empresas ya están utilizando otras técnicas radicales de publici- 
dad, mientras que las restantes 976 no lo hacen. Nótese que la varianza de cada 
estimación es la misma, esto es claro porque los valores de esta característica de 
interés son ceros y uno y por tanto la estructura de varianza resulta idéntica en 
cada caso. 


> E.SI(N,n,Dominios) 


no si 
Total estimado 976.370000 1419.630000 
Varianza 2893.945998 2893.945998 


coeficiente de variación 5.509736 3.789396 


Está claro que existe una tendencia en el sector industrial de publicidad virtual 
mediante el envío de SPAM por correo electrónico. Las siguientes cifras son las 
verdaderamente importantes pues muestran que las empresas que utilizan SPAM 
tienen mayores ingresos, emplean a más gente y contribuyen con una mayor canti- 
dad de dinero en cuanto a impuestos se refiere, esto se da porque hay más empresas 
que utilizan el SPAM de las que no lo hacen. 


> E.SI(N,n,SPAM.no) 


Income Employees Taxes 
Total estimado 4.322564e+05 6.301480e+04 1.140197e+04 
Varianza 8.666341e+08 1.719039e+07 1.293514e+06 


coeficiente de variación 6.810461e+00 6.579612e+00 9.974837e+00 
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> E.SI(N,n,SPAM.si) 


Income Employees Taxes 
Total estimado 5.772743e+05 8.6/5317e+04 1.467550e+04 
Varianza 9.098948e+08 1.769865e+07 1.484429e+06 


coeficiente de variación 5.225326e+00 4.849363e+00 8.302079e+00 


Como N¿ es desconocido, podemos utilizar el estimador alternativo dado por la 
expresión (3.2.38), para obtener una estimación (aunque no la varianza ni el c.v.e) 
de la media de la característica de interés en cada dominio. Simplemente tomamos 
las estimaciones tya y las dividimos por la estimación de Ng. Las siguientes tablas 
resumen las estimaciones para cada uno de los dominios de interés”] 


Tabla 3.3: Estimación en el dominio SPAM SI. 
Variable Total poblacional Total estimado cve%  Desv.% 


Nd 1495 1420 3.79 -5,02 
Ingreso 637265 577274 9.22 -9.41 
Empleados 92350 86753 4.84 -6.06 
Impuestos 18061 14675 8.30 -18.75 


Tabla 3.4: Estimación en el dominio SPAM NO. 
Variable Total poblacional Total estimado cve%  Desv.% 


Nd 937 976 9.91 4.16 
Ingreso 397752 432256 6.81 8.62 
Empleados 59600 63014 6.58 5.13 
Impuestos 10593 11402 9.97 7.64 


3.2.7 Probabilidades de inclusión en unidades de muestreo 


En Sárndal, Swensson éz Wretman (1992) se considera una encuesta para medir 
los ingresos de los hogares. El marco de muestreo es una lista de individuos y 
una muestra de tamaño n se selecciona mediante muestreo aleatorio simple sin 
reemplazo, el hogar correspondiente al individuo es identificado y se procede a 
realizar la medición correspondiente. La probabilidad de inclusión de un hogar h 
compuesto por M < n individuos, puede modelarse por medio de la distribución 
hipergeométrica, así: 


3Nótese que el anterior procedimiento asegura la estimación de los parámetros de dominios 
no sólo en MAS sino para cualquier diseño de muestreo. 
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Tau =Pr(H € s) 
=1-Pr(H ¿s) 
= 1 — Pr(Ninguno de los M salió en la muestra de tamaño n) 
My (N-M 
1 


(N— M!/n(N — M-—nm)! 


me N/(N— Min! 
(N-M)! (N-nm) 
=1 
NI (N-M-m 
-1 (N=n)...(N-n-M+1) 


N..(N-M+1) 


Asumiendo que N y n son grandes (f > 0), se obtienen las siguientes aproxima- 
ciones: 


e M=1, 
a=1-%2 
| (1 —)=1 1) 
e M=2, 
| (N=-n(N=n-1) 
eS N(N-1) 
e ( E Na A 
e M=3, 
no 3 NN DN 2) 
pa AN 
=1- (1-5) 0-05) + 1-0 4Y 


3.3 Muestreo aleatorio simple con reemplazo 


Una muestra aleatoria simple con reemplazo, de tamaño m de una población 
de N elementos es la extracción de m muestras independientes de tamaño 1, en 
donde cada elemento se extrae de la población con la misma probabilidad 


1 
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Definición 3.3.1. Un diseño de muestreo aleatorio simple con reemplazo se define 
como 


mi 1ynr(s)  . _ 
pls) = ¿4 ATAN To (7) si » y nr(s) =m (3.3.1) 
0 en otro caso 


Donde ny(s) es el número de veces que el elemento k-ésimo es seleccionado en la 
muestra realizada s. 
Resultado 3.3.1. Para este diseño de muestreo, existen (PA 
tras de tamaño m; es decir 


posibles mues- 


+0) =( 


Resultado 3.3.2. Dado el soporte Q, de todas las posibles muestras con reemplazo 
de tamaño m, se verifica que el diseño de muestreo aleatorio simple con reemplazo 


es tal que 
S p(s)=1 
seQ 


do 


m 


Prueba. La demostración es inmediata porque este diseño de muestro es una 
función de densidad multinomial discreta sobre (. 


ci 1 ny (s) 
S ns) = Y mis)! .ny(s)! 11 (5) 


CN 


II 
1 
la 


l 
E 
A 
Del 
> 
3 
z 
IAEA 
ud 
SS 
2|- 
Ku 
S 
a 
PE TAN: 
=|=- 
A 
3 
z 
O 


n1(8)..-ny (5) 


y n(S)=m 
AA px 
= (++) 

N veces 
=1 


donde se utiliza el resultado del teorema multinomial que afirma que 


N m 
3 y co (pnjO" = (En) (3.3.2) 
ny! Le 


Resultado 3.3.3. Para un diseño aleatorio simple con reemplazo, las probabili- 
dades de inclusión de primer y segundo orden están dadas por 


Ae (1-3) (3.3.3) 


meu = 2 (1-7) +(1- y) (3.3.4) 
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respectivamente. 


Prueba. Utilizando los resultados 2.2.9. y 2.2.10., respectivamente, se llega a la 
demostración. A 


Ejemplo 3.3.1. En nuestra población ejemplo el tamaño poblacional es N = 5. 
Si se quisiera seleccionar una muestra aleatoria simple con reemplazo de tamaño 
m = 2, entonces existirían N'" = 5% = 25 posibles extracciones ordenadas. Sin 
embargo, sólo existen (a = (5) = 15 posibles muestras. Cada una de las 
posibles muestras que pertenecen al soporte con reemplazo tienen las siguientes 


probabilidades de selección. 


vi v2 p ni n2 n3 n4 n5 
1 Yves Yves 0.04 20000 
2 Ken Ken 0.04 02.000 
3 Erik Erik 0.04 00200 
4 Sharon Sharon 0.04 00020 
5 Leslie Leslie 0.04 00.002 
6 Yves Ken 0.08 110050 
7 Yves Erik 0.08 10.100 
8 Yves Sharon 0.08 10.01 0 
9 Yves Leslie 0.08 10001 
10 Ken Erik 0.08 01100 
11 Ken Sharon 0.08 0101 0 
12 Ken Leslie 0.08 01.00 s1 
13 Erik Sharon 0.08 0.0110 
14 Erik Leslie 0.08 0.001.011 
15 Sharon Leslie 0.08 0.0.0 1 1 


Nótese que la suma de las probabilidades inducidas por el diseño de muestreo es 
igual a uno y que cada una de ellas es mayor que cero. 


3.3.1 Algoritmo de selección 


Tillé (2006) presenta dos algoritmos para seleccionar una muestra aleatoria simple 
con reemplazo. El primero, de manera general induce m selecciones individuales 
y el segundo, es un método secuencial que implementa la selección mediante la 
distribución binomial. 


Método de m selecciones 


El siguiente método de selección se implementa en m pasos, y aunque no es eficiente 
computacionalmente, es muy conocido. 


e Seleccionar un primer elemento con probabilidad ES de todo el conjunto de 
datos. 


e Seleccionar un segundo elemento con probabilidad Y de todo el conjunto de 
datos. 
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e Seleccionar un m-ésimo elemento con probabilidad + de todo el conjunto de 
datos. 


Hace unas pocas décadas, cuando no existía la ayuda tecnológica de ahora, no 
imagino como los encargados de la selección de la muestra pudieron haber utilizado 
este algoritmo. Imagine seleccionar una muestra de 3000 elementos sin la facilidad 
de un computador. 


Método secuencial 


Tillé (2006) afirma que este procedimiento es mejor que el anterior porque permite 
seleccionar una muestra de tamaño m en una sola pasada por el conjunto de datos. 


e Seleccionar nz veces el elemento k-ésimo de acuerdo a una distribución bi- 


nomial. 
k-1 1 
Bi $ 3.3.5 


Para todo k € U. 


Ejemplo 3.3.2. Como se ha visto en los capítulos anteriores, R incorpora en la 
función sample, la selección de muestras aleatorias simples con reemplazo, simple- 
mente el argumento replace debe ser activado mediante, replace=TRUE. Así, para 
seleccionar una muestra con reemplazo de tamaño m = 3, sólo es necesario escribir 
el siguiente código. 


> sam <- sample(N,3, replace=TRUE) 
> Ulsam] 
[1] "Erik" "Leslie" "Leslie" 


El procedimiento de selección de una muestra aleatoria con reemplazo de ta- 
maño m mediante el uso del algoritmo secuencial está implementado en la función 
S.WR(N,m) cuyos argumentos son N, el tamaño de la población y m, el tamaño de 
la muestra con reemplazo. Así, para seleccionar una muestra aleatoria simple con 
reemplazo de la población U de tamaño N = 5, se tiene 


>m< 3 

> sam <- S.WR(N,m) 

> U[sam] 

[1] "Ken" "Sharon" "Sharon" 


Una vez más, la salida de la función es un vector de índices (no necesariamente 
distintos) de los elementos pertenecientes a la muestra seleccionada s. Este algo- 
ritmo utiliza la distribución binomial en cada uno de sus pasos, de tal forma que 
para la selección de la anterior muestra conformada por Ken, Sharon y Sharon 
cada uno de los N = 5 pasos del algoritmo arrojaron los siguientes resultados. 
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k Nombre Binn Binp nk 
1 Yves 3 0.2000 0 
2 Ken 3 0.2500 1 
3 Erik 2 0.3333 0 
4 Sharon 2 0.5000 2 
5 Leslie 0 1.0000 0 


Donde Bin n y Bin p son los parámetros de la distribución binomial asociada 
al algoritmo secuencial. Note que la cantidad nk se refiere a la realización de la 
variable nz (s). 


3.3.2 El estimador de Hansen-Hurwitz 


Cuando se tienen las cantidades del resultado 3.3.3 se pueden implementar los 
principios del estimador de Horvitz-T'hompson para estimar el total poblacional t,; 
sin embargo, el cálculo y estimación de la varianza de esta estrategia de muestreo 
resulta ser muy compleja (computacionalmente). Por esta razón, utilizaremos el 
estimador de Hansen-Hurwitz dado por que estima de manera insesgada 
al parámetro de interés ty. 


Resultado 3.3.4. Para un diseño de muestreo aleatorio simple con reemplazo, el 
estimador de Hansen-Hurwitz del total poblacional t,, su varianza y su varianza 
estimada están dados por: 


A NE 
typ = E 2, Yi 3.3.6) 
4 N-1 
VarmrasÍlty,p) = NOD sa, 3.3.7) 
e A N? y 
Varmras[typ) = a ys 3.3.8) 


respectivamente, con Su el estimador de la varianza de los valores de la carac- 
terística de interés y en el universo y e el estimador de la varianza de los valores 
y; que pertenecen a la muestra seleccionada (Vi € m) (no necesariamente distintos) 


en la muestra. Esto es, 


m 


2. =—— Y ly - 98). 
ysr m-12,(% Ys) 


Nótese que ná es insesgado para el total poblacional t,, de la característica de 


interés y, y que Varuras[typ) es insesgado para VarmrasÍltyp)- 


Prueba. Los resultados se obtienen escribiendo el estimador de Hansen-Hurwitz 
de la siguiente manera, 


2 _1 yu _N 
typ = e 2 A 2 (3.3.9) 
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Por tanto, utilizando el resultado 2.2.8., se tiene que 


E (ty,p) ll Els) 
U 


A En 
= — ATYk = ly 
m7 N 


Por otro lado, asumiendo que las variables Z, son independientes e idénticamente 
distribuidas 


Var (ia) = Var (2 os 2) 
E 7 DVar(Z,) 
1 m al > 
= =>» (E pomo ) 
ds i U 
== (5 Nin io) 


(N—1) 


Escribiendo el estimador de la varianza como 


Vb.) = Zo nuts) Me (3.310) 
se tiene el insesgamiento dado por 
E (Varttyy)) = 7 Y E(máS Ny 6y9)) 
a E (ni(S(N Yr — ty)? — ng(S)(byp — ty)) 
== (Eu = ty) ) 
U 
AA) 
U 
= == E ( ni(S (NY; — 1) mE (ty po 0) 
U 
Dada YN yy — ty)? Var(i 
a A 2 Uk 0) m ar (ty,p) 
1 1 
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Ejemplo 3.3.3. Para nuestra población de ejemplo U, existen (AS = 20 


posibles muestras con reemplazo de tamaño m = 2. Realice el cálculo léxico-gráfico 
del estimador de Hansen-Hurwitz y compruebe el insesgamiento y la varianza. 


3.3.3 Marco y Lucy 


Suponga que se quiere seleccionar una muestra aleatoria simple con reemplazo de 
tamaño m = 400 empresas del sector industrial. Para la selección de la muestra es 
posible usar la función sample que viene integrada con R. En primer lugar se debe 
cargar el marco de muestreo que permite la selección, identificación y posterior 
ubicación de cada individuo en la muestra con reemplazo. Para la selección de la 
muestra es necesario ingresar los parámetros de la función, en este caso N=2396, 
el tamaño poblacional, está dado por la cantidad de filas (registros de empresas 
del sector industrial) del marco de muestro y m=400 empresas que se seleccionaran 
con reemplazo. 


data(Lucy) 

attach(Lucy) 

N <- dim(Lucy) [1] 

m <- 400 

sam <- sample(N,m, replace=TRUE) 


VWvVvVOyvoy 


Sin embargo, para seleccionar la muestra con reemplazo utilizando el método se- 
cuencial, el paquete TeachingSampling adjunta la función S.WR cuyos argumentos 
son N, el tamaño de la población y m, el tamaño de la muestra con reemplazo. El 
resultado de la función es un conjunto de índices (no necesariamente distintos) que 
aplicados a la población resulta en los valores de la característica de interés para 
las empresas (no necesariamente distintas) seleccionadas. Nótese que una empresa 
seleccionada se tendrá en cuenta en la etapa de estimación tantas veces como haya 
sido seleccionada. 


> sam <- S.WR(N,m) 
> muestra <- Lucylsam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone 
2 ABO0O2 c1k2 Small A 
15 ABO15 c1k15 Small A 
15.1 ABO15 c1k15 Small A 
2383 AB906 c26k7 Big E 
2383.1  AB908 c26k8 Big E 


2392 AB984 c26k16 Big E 
> dim(muestra) 
[1] 400 4 


La primera empresa en ser seleccionada mediante el método secuencial es la em- 
presa que ocupa la segunda posición en el marco de muestreo; es decir, la empresa 
cuyo número único de identificación corresponde a AB002, la segunda y tercera 
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empresa en ser seleccionadas corresponde a la empresa identificada con el número 
único AB015. Si un elemento ha sido seleccionada más de una vez, R codifica au- 
tomáticamente las posteriores selecciones con un punto seguido de un número que 
indica el número de veces menos uno que ha sido seleccionada la misma unidad. 


Una vez que las empresas son seleccionadas, se programa la visita del encuestador 
en la cual se registran los valores de las características de interés. Cuando se tiene la 
base de datos con la información pertinente para todas las empresas seleccionadas 
en la muestra con reemplazo, se procede a estimar los totales de las características 
de interés. La función E.WR del paquete TeachingSampling permite la estimación 
de una o varias características de interés simultáneamente. Para ello, se debe crear 
un conjunto de datos con la información recolectora para cada una de las 400 
empresas en las características de interés. En este caso creamos un conjunto de 
datos con las tres características de interés Income, Employees y Taxes. 


> estima <- data.frame(Income, Employees, Taxes) 


La función E.WR del paquete TeachingSampling tiene tres argumentos, N, el ta- 
maño de la población y m, el tamaño de la muestra con reemplazo y el conjunto 
de datos (conteniendo los valores para la(s) característica(s) de interés). El resul- 
tado de la función es la estimación del total, la varianza estimada y el respectivo 
coeficiente de variación de la(s) característica(s) de interés. 


> E.WR(N,m,estima) 


Income Employees Taxes 
Total estimado 1.049137e+06 1.569140e+05 3.082753e+04 
Varianza 1.255743e+09 1.847564e+07 6.356860e+06 


coeficiente de variación 3.377679e+00 2.739290e+00 8.178667e+00 


La tabla 3.5. muestra los resultados particulares de esta estrategia de muestreo. 
Nótese que con un menor tamaño de muestra, se obtienen mejores resultados que 
al utilizar una estrategia de muestreo que contempla un diseño Bernoulli y el 
estimador de Horvitz-Thompson. 


Tabla 3.5: Muestreo aleatorio simple con reemplazo: estimación de los totales de 
las características de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1049137 3.37 1.34 
Empleados 151950 156914 2.73 3.27 
Impuestos 28654 30817 8.17 7.59 


El efecto de diseño 


Sin embargo, utilizando el efecto de diseño podemos comparar la eficiencia de la 
anterior estrategia utilizada en Lucy mediante el efecto de diseño. Utilizando la 
definición podemos aproximar la medida mediante 
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Varmrasltyp) 
VarmasÍlty,r) 


1 1 IN, 1 

a 

Por tanto, para la estrategia de muestreo utilizada anteriormente, tenemos Def f = 
1.2. Lo anterior indica que existe una pérdida del 20% de precisión al utilizar 
la estrategia de muestreo con reemplazo y el estimador de Hansen-Hurwitz. En 
general se tiene que para tamaños de muestra muy pequeños, en comparación a 
N, las dos estrategias arrojan resultados muy similares. Sin embargo, a medida 
que el tamaño de muestra crece, en comparación a N, la medida Def f aumenta 
significativamente; es decir, existe una pérdida muy grande de eficiencia. 


Def f = 


1 


Estimador HH para Ingreso 


Density 


0.0e+00 2.0e-06 4.0e-06 6.0e-06 8.0e-06 1.0e-05 1.2e-05 


r T T T 1 
400000 600000 800000 1000000 1200000 


HHKk 


Figura 3.3: Distribución del estimador de Hansen-Hurwitz para el total de Ingreso. 


Dado que el diseño de muestreo es con reemplazo, se quiere verificar que la dis- 
tribución asintótica del estimador de Hansen-Hurwitz sea normal. Se realiza una 
simulación de Monte Carlo, con los mismos lineamentos utilizados en la sección 
3.1.3 en donde se realizaron varios experimentos de Monte Carlo para examinar el 
comportamiento del estimador de Hansen-Hurwitz en la característica ingreso. El 
resultado de la simulación se muestra en los histogramas de la figura 3.3. En este 
experimento de Monte Carlo el promedio de las estimaciones de cada experimento 
coincide con el total poblacional y se espera que la varianza de las estimaciones 
debe acercarse a la varianza basada en el diseño de muestreo aleatorio simple. 


La media de las estimaciones de ty es 1034179 que ajusta bien con el parámetro 
correspondiente t, = 1035217. Nótese que la varianza del estimador (mediante este 
experimento de Monte Carlo) es muy grande y que la distribución del estimador 
muestra valores atípicos, aunque con una probabilidad de ocurrencia muy baja. 
Hay que tener cuidado con las afirmaciones acerca de normalidad en este caso pues 
la distribución, aunque parece ser simétrica y con forma de campana, está sesgada 
a derecha. 
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3.4 Diseño de muestreo sistemático 


En algunas ocasiones, cuando no se dispone de un marco de muestreo, por lo me- 
nos no de forma explícita, o cuando el marco disponible está ordenado de forma, 
particular, con respecto a los rótulos del mismo, es posible utilizar el diseño de 
muestreo sistemático como una opción para la selección de muestras. La carac- 
terística más particular de este diseño de muestreo es que todas las unidades se 
suponen enumeradas del 1 al Y, al menos implícitamente, y se tiene conocimiento 
de que la población se encuentra particionada en a grupos poblacionales latentes. 
En este orden de ideas el tamaño poblacional N puede ser escrito como 


N=na+c (3.4.1) 


en donde 0 < ec < a y n, el tamaño de muestra esperado, se define como la 
parte entera del cociente N/a. Nótese que c es un entero que representa el residuo 
algebraico del total poblacional y se puede ver fácilmente que toma la siguiente 
forma 


a (3.4.2) 


En donde ||% || representa la parte entera del cociente N/a. Una vez que los grupos 
han sido conformados, se procede a escoger de manera aleatoria, un número entre 
1 y a, por ejemplo r. La muestra estará conformada sistemáticamente por los 
elementos r,r+a,r+2a,...,r+(n— 1)a. Nótese que en el caso en donde c= 0, el 
tamaño de muestra estará dado por n = N/a; de otra forma, si c > 0, el tamaño 
de muestra puede ser n = [Y 6 n = [[% || + 1. Como lo señala Raj (1968) este 
diseño de muestreo es un caso especial de un muestreo por conglomerados, como 
se verá en los siguientes capítulos. 


Tabla 3.6: Posible configuración del muestreo sistemático. 


Grupo $1 ... Sy “--  Sq 

n=1 1 r a A 

n=2 l+a ... r+a “-- 24 

n=3 1+2a e. r+2a “34 

n=|[2 | l+(n-Da ++ r+(n=l)ja ++ na 
n= 2] +1 l+ma ... 


El anterior esquema permite una mejor comprensión del funcionamiento del diseño 
de muestreo sistemático. Nótese el ordenamiento por grupos de las unidades que 
pertenecen a la población. En particular, esta tabla corresponde a una población, 
en donde, si se seleccionara el último grupo s,, entonces el tamaño de muestra sería 
n = [A ||, mientras que si se escogiera el primer grupo s1, el tamaño de muestra 
estaría dado por n= [1% || +1. 


Por otro lado, nótese que cada grupo s, constituye una posible muestra, de tal 
forma que 


U = 


r 


EN (3.4.3) 
1 


a 
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El soporte Q de todas las posible muestras sistemáticas, queda entonces definido 
como 


A (3.4.4) 


Resultado 3.4.1. Para este diseño de muestreo, la cardinalidad del soporte es 
igual al número de grupos formados. Es decir 


FQ,=a 


Definición 3.4.1. Suponga que el tamaño poblacional es tal que ÑN = na+c, con 
0<c<a. Se define un diseño de muestreo sistemático de la siguiente manera 


p(s) = Ú Ed (3.4.5) 


O en otro caso 


Dado que sólo existen a posibles muestras, el diseño de muestreo sistemático cum- 
ple que > 7,309 p(s) = 1. 


3.4.1 Algoritmo de selección 


El siguiente algoritmo secuencial permite la extracción de una muestra mediante 
el diseño de muestreo sistemático. 


, La 1 : : 
1. Seleccionar con probabilidad — un arranque aleatorio. Es decir un entero r, 
a 


tal que l <r <a. 
2. La muestra estará definida por el siguiente conjunto 

Sp =1k:k=r+(3-=Da;j=1,...,n(S)) (3.4.6) 

Ejemplo 3.4.1. Nuestra población ejemplo U está ordenada de la siguiente forma 
U = (Yves, Ken, Erik, Sharon, Leslie) 
Suponga que sistemáticamente se divide en a = 2 grupos. El primero dado por: 
s1 = [Y ves, Erik, Leslie.) 
y el segundo conformado por: 
s2 = (Ken, Sharon) 

De tal forma que N = (2)(2) + 1. Para seleccionar un arranque aleatorio r se 
utilizará un dado, de tal forma que si el resultado de un lanzamiento es par, 


entonces la muestra seleccionada será s¡, de lo contrario la muestra seleccionada 
será sa. 
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Resultado 3.4.2. Para un diseño de muestreo sistemático, las probabilidades de 
inclusión de primer y segundo orden están dadas por 


(3.4.7) 


Tk = 


(3.4.8) 
en otro caso 


1 
a 
a Já si k y l pertenecen a Sy 
TL = 
0 
respectivamente. 


Prueba. considerando que el elemento k-ésimo sólo puede pertenecer a una y sólo 
una muestra s,, tenemos que 


1 
Tk = Pr(k € S) = Pr(seleccionar la muestra s,) = a (3.4.9) 


Por otra parte, suponga que los elementos k-ésimo y l-ésimo pertenecen al grupo 
Sy”. De esta manera, estos elementos son incluidos en la muestra sí y sólo sí se 
selecciona el grupo s,, por tanto, la probabilidad de inclusión de segundo orden 


está dada por la probabilidad de selección del grupo s, igual a —. Si los elementos 


a 
k-ésimo y l-ésimo pertenecen a grupos distintos, la probabilidad de ser incluidos 
en la muestra realizada es nula. Mn 


3.4.2 El estimador de Horvitz-Thompson 


Una vez que el diseño de muestreo es definido, la estrategia se completa con el 
uso del estimador de Horvitz-T'hompson, por ser este un diseño sin reemplazo. El 
siguiente resultado será útil para definir las propiedades de varianza del estimador. 


Resultado 3.4.3. Para un diseño p(-) con soporte (2, la varianza del estimador 
de Horvitz-Thompson, se puede escribir como 


Var(t SN 2 YY — (2 a) (3.4.10) 
U 


Prueba. Partiendo del resultado 2.2.2., se tiene que 


Var(tya) = Aa (3.4.11) 
U 

=) 2 (1 Aa (3.4.12) 
U 

Ñ 22 (2 E 1) Y Yl (3.4.13) 

_ =$ y o DY — E 2 YY (3.4.14) 


DR o DY (5. ") (3.4.15) 
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En donde se utiliza el hecho de que 


NY n= Y + y (E a) (3.4.16) 
U U U 


kAl 


Resultado 3.4.4. Para el diseño de muestreo sistemático, el estimador de Horvitz- 
Thompson y su varianza están dados por: 


ty r = Qbsr, (3.4.17) 
con tsr =D pes, Yk> Y 
Vars1s(ty,r) = ay (tor == 8 (3.4.18) 
r=1 


En este caso no existe estimador de la varianza. 


Prueba. De la definición del estimador de Horvitz-Thompson y dado que las 
probabilidades de inclusión de primer orden son todas iguales al valor 1/a, entonces 


ty = Y E = atar (3.4.19) 


Vary) =D) mn VE = (E a) (3.4.20) 
U 


U 
=4 y (E y 0) =P (3.4.21) 
r=1 sr 
=a Y (E y Y 5) te (3.4.22) 
r=1 XkEs, lEsr 
=a0) tt (3.4.23) 
r=1 
=D> (ta 1” (3.4.24) 
r=1 
donde ñ 
E= y o (3.4.25) 
E a 
Por la definición 3.4.1, algunas probabilidades de inclusión de segundo orden son 
nulas, por ell no se tiene un estimador de la varianza. ] 


Más allá de que los principios del estimador de Horvitz-Thompson no permitan 
estimar la varianza para este diseño, la razón genérica radica en que, de una forma 
u otra, se está seleccionando uno y sólo un grupo de elementos y se calcula un sólo 
total para el grupo. Como la selección es de sólo un grupo, no se tiene un marco 
de comparación y no se puede llegar a una estimación de la varianza. 
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3.4.3 Optimalidad de la estrategia 


Una vez que la estrategia de muestreo queda definida, es indispensable tocar el 
tema de la configuración de los valores de la característica de interés mediante el 
ordenamiento particular que se tiene en el marco de muestreo. Bautista (1998) uti- 
liza el siguiente esquema para explicar la eficiencia de esta estrategia de muestreo. 


Tabla 3.7: Configuración de totales por grupo. 


Grupo S1 e. Sy uo Sa 

Yi Yr Yk 

Valor de Yi+a Ur+a Y2a 

la Y1+2a Yr+2a Y3a 
característica . BAS Eire 
Y1+(n—1)a Yr+(n—1)a Yna 

Total de grupo Los 3 e 2 a 


Este diseño de muestreo puede resultar más eficiente que el diseño de muestreo 
aleatorio simple, dependiendo del ordenamiento del marco de muestreo. Es usa- 
do para palear las posibles imperfecciones generadas por un diseño de muestreo 
aleatorio simple. Por ejemplo, puede resultar que en una muestra simple, todos 
los elementos de la muestra seleccionada compartan una característica latente que 
perjudique la precisión de las estimaciones. En el caso de una población de perso- 
nas, puede resultar que una muestra simple sólo incluya hombres. Cuando se sabe 
que el marco de muestreo está ordenado de manera aleatoria, es recomendable 
utilizar el diseño de muestreo aleatorio simple, porque asegura una muestra bien 
mezclada. Por ejemplo, si el marco de muestreo está ordenado alfabéticamente, es 
casi seguro que se obtendrá una muestra que sea representativa de la población, 
puesto que la posición alfabética no debería estar asociada con la característica de 
interés. 


Además, mediante este diseño de muestreo, no es necesario poseer un marco de 
muestreo de forma física para poder realizar una muestra probabilística. Sin em- 
bargo, se debe tener cuidado con la especificación del diseño, pues como lo afirma 
Lohr (2000) no es lo mismo seleccionar una de cada 10 personas que entran a una 
biblioteca que seleccionar una de cada 10 personas que salen de un avión. En el 
segundo caso, existe de forma implícita, un marco de muestreo. 


Como se verá más adelante, el diseño de muestreo sistemático puede ser más 
preciso que el diseño de muestreo aleatorio simple cuando los grupos s, poseen 
mucha variación interna. De manera contraria, si el valor de los elementos dentro 
de los grupos proporciona la misma información, entonces la eficiencia del diseño 
se verá disminuida significativamente con respecto al diseño aleatorio simple. 


La figura 3.4 muestra los tres casos más particulares en el uso de esta estrategia 
de muestreo cuyas características son las siguientes: 


1. Ordenamiento aleatorio: cuando el ordenamiento del marco de muestreo 
no está relacionado con la característica de interés, la eficiencia de este diseño 
es comparable con la de muestreo aleatorio simple. Ordenamiento por orden 
alfabético. 
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2. Ordenamiento lineal: cuando el ordenamiento del marco de muestreo es 
tal que se puede observar una tendencia lineal, entonces la selección de una 
muestra sistemática obliga a que los valores de los elementos incluidos tengan 
una alta dispersión haciendo que el comportamiento de los grupos formados 
sea heterogéneo con respecto al valor de la característica de interés. Ordena- 
miento de registros contables. 


3. Ordenamiento periódico: si la población es tal que se observa un patrón 
de tipo periódico, el muestreo sistemático puede arrojar peores resultado que 
una muestra aleatoria simple pues si el intervalo de muestreo coincide con 
el patrón de periodicidad, la muestra seleccionada incluiría elementos cu- 
yos valores de la característica de interés serían muy parecidos. Una muestra 
seleccionada de esta manera no sería representativa de la población. En algu- 
nos casos es posible encontrar poblaciones con este tipo de comportamiento 
periódico; por ejemplo, el flujo vehicular durante las 24 horas del día o las 
ventas en negocios durante cierta temporada del año. 


Aleatorio Lineal Periodicidad 


Figura 3.4: Casos de ordenamiento en muestreo sistemático. 


Descomposición de la varianza 


Algunos críticos de la teoría del muestreo han querido separar el pensamiento es- 
tadístico de la metodología de estudios por muestreo. Lo anterior sumado a la falta 
de preparación del usuario del muestreo ha abierto una brecha entre dos mundos. 
La verdad es que la estadística sin muestreo no está completa y viceversa Kish 
(1965). En estos apartes, debemos considerar uno de los resultados más importan- 
tes de la estadística que ha permitido el desarrollo de la misma en diversos campos 
de la vida práctica. 


Resultado 3.4.5. Suponga que la población se divide en a grupos, de tal forma 
que existen n elementos por grupo y el tamaño poblacional toma la forma N = an, 
entonces 
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(N-D82, =Y (96-30) =D (Ur —G0,) + _n(Gs, — Gu)” (3.4.26) 
U r=l. 8, r=1 


SOT SCD SCE 


La sigla SCT se refiere a la suma de cuadros del total de la población y no es 
otra cosa que el numerador en la fórmula del estimador de la varianza. El anterior 
resultado es importante porque permite descomponer la suma de cuadrados total 
en dos cantidades. Primero, SCD que denota la suma de cuadrados dentro (al 
interior) de los grupos y segundo, SCE que hace referencia a la suma de cuadrados 
entre los grupos. Por supuesto, la varianza como parámetro poblacional es fija, por 
tanto si 


1. SCE es alta, entonces SCD es baja, indicando así que los grupos están 
construidos de tal forma que resultan ser muy heterogéneos entre sí, pero 
dentro de ellos existe homogeneidad. 


2. SCE es baja, entonces SCD es alta, lo que quiere decir que los grupos 
son muy disímiles en su interior, pero entre ellos tienen un comportamiento 
similar. 


Esta representación de la descomposición de la varianza, se puede ver claramente 


en una tabla de ANOVA (análisis de varianza, por sus siglas en inglés), de la 
siguiente manera. 


Tabla 3.8: Tabla de ANOVA inducida por el muestreo sistemático. 


Fuente el Suma de cuadrados Cuadrado medio 
Entre a—=1 SCE = ei nda, — JuY — 
Dentro N-a SCD=>_; pa (Yrr — ds, )' a 
Total N—1 SCT = Y y (Ur — Ju) e 


Desde un punto de vista totalmente pragmático, la estrategia de muestreo tendrá 
un mejor desempeño cuando la variabilidad total entre los grupos sea mínima y 
la variabilidad dentro de los grupos sea máxima. El siguiente resultado da una 
mejor comprensión de la descomposición de la varianza en los grupos. Es decir, 
la varianza del estimador de Horvitz-T'hompson, bajo muestreo sistemático, será 
cercana a cero cuando el ordenamiento de los grupos en la población es tal que los 
totales t,, con r =1,...,a son similares 


da RAE (3.4.27) 


Resultado 3.4.6. Sin pérdida de generalidad, considere que el tamaño muestral 
es tal que N = na, entonces la varianza del estimador de Horvitz-T'hompson bajo 
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un diseño de muestreo sistemático toma la siguiente forma 
o a = 32 
Varsis(ty) = NY n(Gs, — Gu)” =N(SCE) (3.4.28) 


Prueba. Partiendo de la definición de la varianza del estimador de Horvitz- 
Thompson en muestreo sistemático, se tiene que 


a 
Varsis Earl = ay (Esr 7 AN 
r=1 


a 


=> (MYsr — nyu) 
n 
r=1 
NE o 
A n? (Use — uy 
n 
r=1 
= NY n(js, — Ju) =N(SCE) 
r=1 


Por tanto, se quiere que toda la variabilidad esté por dentro de cada uno de los 
grupos. 


Definición 3.4.2. Se define el coeficiente de correlación intra-clase como 


n SCD 


Esta medida de correlación entre los pares de elementos de los grupos formados 
toma una valor máximo igual a uno cuando SCE es nula y toma un valor míni- 
1 


mo igual a —,7 cuando SCE es máxima. En particular, es deseable para esta 


estrategia que p tome valores cercanos a cero. 
Resultado 3.4.7. Utilizando la relación |3.4.26| SCT=SCE+SCD se tiene que 


=-1 
SCE = SCT |(p— 1 —— +d (3.4.30) 


Prueba. De la definición del coeficiente de correlación intra-clase se tiene que 


n—1 SCD 
-1 l=1- 5 
(p-1) qe SOT 
_SCE 
30D 
por tanto al despejar SCE se tiene el resultado. | 


Resultado 3.4.8. Con el anterior resultado no es difícil verificar que la varianza 
del estimador de Horvitz-T'hompson bajo muestreo sistemático se puede escribir 
como 


Varsisltyn) = (1 E 5) Ss (ad + (n— da) (3.4.31) 
Uan : 


Varmaslty,) 
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Prueba. Partiendo de la última expresión tenemos que 


Je (1-7) Sol ls da) = 2SOT(L+(n- Da 


= N(SCT) Pl E Ser | 


= N(SCE) 


= Vars1s(t,,r) 


que coincide con la varianza del estimador de Horvitz-Thompson en muestreo 
sistemático a 


Nótese que la primera parte de la anterior ecuación se refiere al valor del estimador 
de Horvitz-Thompson bajo un diseño de muestreo aleatorio simple sin reemplazo. 
Siguiendo esta idea, el efecto de diseño está dado por el siguiente resultado. 


Resultado 3.4.9. El efecto de diseño de la estrategia de muestreo que utiliza un 
diseño sistemático y el estimador de Horvitz-Thompson está dado por 


Varsistr SS N-1 
Varmasín N-=n 


Deff = [1 + (n— 1)p] (3.4.32) 


Dado el efecto de diseño, se concluye que esta estrategia de muestreo es 


1. Igual de eficiente al muestreo aleatorio simple sí p = Ty: 


2. Menos eficiente que el muestreo aleatorio simple sí p > SS 


3. Más eficiente que el muestreo aleatorio simple sí p < Ty 


Prueba. La demostración es inmediata teniendo en cuenta el anterior resultado. 
| 


3.4.4 Diseño de muestreo q-sistemático 


Cuando la periodicidad es un problema o cuando se quiere tener un estimativo 
insesgado de la varianza del estimador de Horvitz-Thompson, Mahalanobis (1946) 
propone el uso de muestras sistemáticas inter-penetradas. Este método consiste en 
seleccionar, no una, sino q muestras sistemáticas. De esta manera se seleccionan 
q arranques aleatorios en grupos de tamaño aq, de tal manera que el tamaño 
poblacional se escribe como N = a +C. 


Definición 3.4.3. El diseño de muestreo sistemático con q réplicas está definido 


como 


1 
p(s) = a] para todo s € Q, (3.4.33) 
q 


con (Q), definido en 3.4.4. 
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Por supuesto, la cardinalidad del soporte es 4Q, = (ez por tanto este diseño de 
muestreo cumple las propiedades del capítulo anterior. Teniendo en cuenta que se 
han formado a grupos, entonces el diseño de muestreo q-sistemático puede ser visto 
como un diseño MAS de tamaño de muestra igual a q de los totales de todos los 
grupos. Una ve más, estos grupos también pueden ser vistos como conglomerados. 


Resultado 3.4.10. Para un diseño de muestreo sistemático, las probabilidades de 
inclusión de primer y segundo orden están dadas por 


Tk = 


q 
a 
mo=| 


Resultado 3.4.11. Para el diseño de muestreo sistemático con q réplicas, el esti- 
mador de Horvitz-T'hompson y su varianza están dados por: 


(3.4.34) 


ikyl tenecen a. 
si Kk y l pertenecen as, (3.4.35) 
2— enotro caso 


respectivamente. 


tun= Y tar (3.4.36) 
q Ss 
Varsis(é (1-98 (3.4.37) 
SISVty,T q á ts, U a 
e e e mo es 
Varsis(tya) == (1- 2) Sa (3.4.38) 


respectivamente, con Se uy Se s €l estimador de la varianza de los totales de la 
característica de interés y en cada grupo s, del universo y en la muestra. Nótese 
que ty, es insesgado para el total poblacional t, de la característica de interés y, 


y que Varg1s(t, ) es insesgado para Vars15(ty,r). 
Al respecto de esta estrategia, el lector debe notar que: 


e La varianza del estimador de Horvitz-Thompson bajo el diseño de mues- 
tro q-sistemático crece cuando se aplica a un universo que está ordenado 
igualmente de forma sistemática. 


e La varianza del estimador de Horvitz-Thompson bajo el diseño de muestro 
q-sistemático depende del ordenamiento de los valores de la característica de 
interés por lo que puede suceder que ésta no sea monótonamente decreciente 
en función del tamaño de muestra. 


e El efecto de la correlación intra-clase tiene una gran repercusión en el tamaño 
de muestra; si existe una alta correlación intra-clase entonces el tamaño de 
muestra debe ser mayor para tener un c.v.e pequeño y viceversa. 


e En estudios de tipo electoral se dice que un candidato tiene alta correlación 
intra-clase (por ejemplo en los barrios) cuando la imagen del candidato está 
polarizada. Es decir, la mayoría de votación en determinado barrio es muy 
alta por el candidato o muy baja. Por otro lado, se dice que la campaña 
electoral tiene baja correlación intra-clase cuando la votación en los barrios 
no es ni muy baja ni muy alta. 
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3.4.5 Marco y Lucy 


En nuestro intento de obtener estimaciones precisas para la evaluación del compor- 
tamiento del sector industrial en lo corrido del último año fiscal, hemos notado que 
el marco de muestreo está ordenado de manera alfanumérica en orden ascendente 
por el rótulo de identificación industrial. Además, se sabe que el número de iden- 
tificación de cada empresa no tiene una secuencia específica, sino que es asignado 
de acuerdo a la fecha de registro de la empresa. De tal forma, la primera empresa 
en ser registrada ante el organismo gubernamental competente es la identificada 
con el número de identificación AB001 y la última empresa en ser registrada es 
la identificada con el número AB987. 


Nótese que las característica de interés son Ingreso, número de empleados e im- 
puestos declarados en el último año fiscal y se supone, de manera correcta, que 
estas características no tienen ninguna relación con la fecha de registro de la em- 
presa. Así, puede suceder que una empresa joven, tenga unos altos réditos, pocos 
empleados y una alta declaración de impuestos, pero puede suceder lo contrario; 
de hecho, este comportamiento está sujeto a la estrategia de marketing utilizada 
en cada periodo comercial y no a la antigúedad del negocio. Por las anteriores 
razones, se supone que el ordenamiento del marco de muestreo es completamente 
aleatorio. 


Se ha decidido que la población va a ser particionada en seis grupos, de tal forma 
que el tamaño efectivo de muestra será 399 o 400. El marco de muestreo es cargado 
en el ambiente de R. 


data (Lucy) 
attach(Lucy) 

N <- dim(Lucy) [1] 
a<-6 

floor(N/a) 

399 


VMVvVOyvoyvVv oy 


El procedimiento que se sigue es la creación de los grupos sistemáticos. Esto puede 
realizarse con la función (array (1:a,N)) que permite la creación de la secuencia 
1,2,3,4,5,6,1,2,3,4,5,6,1,2...; sin embargo, es indispensable definir este arreglo 
como un factor, es decir como una variable de tipo categórica nominal cuyos rótulos 
significan la pertenencia de un individuo a un grupo. Así el marco de muestreo 
toma la siguiente forma. 


> grupo <- as.factor(array(1:a,N)) 
> data.frame(grupo, Lucy) [1:12,] 


grupo ID Ubication Level Zone 
1 1 ABOO1 c1k1 Small A 
2 2 ABOO2 c1k2 Small A 
3 3 ABOO3 c1k3 Small A 
4 4 ABOO4 c1k4 Small A 
5 5 ABOO5 c1k5 Small A 
6 6 ABO06 c1k6 Small A 
7 1 ABOO7 c1k7 Small A 
8 2 ABOOS c1k8 Small A 
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9 3 ABO09 c1k9 Small A 
10 4 ABO1O c1k10 Small A 
11 5 ABO11 c1k11 Small A 
12 6 ABO12 c1k12 Small A 


La selección de la muestra se realiza mediante la función S.SY del paquete TeachingSampling 
cuyos argumentos son N, el tamaño de la población y a, el número de grupos. Esta 

función sigue el algoritmo secuencial descrito en esta estrategia de muestreo y lo 

que hace es aleatoriamente asignar un arranque aleatorio y saltar, en este caso, 

de seis en seis elementos hasta barrer toda la lista. El resultado de la función es 

un listado de índices que aplicados a la población resulta en los valores de las 
características de interés de los elementos incluidos en la muestra realizada. 


> sam <- S.SY(N,a) 
> muestra <- Lucy[sam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone 
3 ABOO3 c1k3 Small A 
9 ABOO9 c1k9 Small A 
15 ABO15 c1k15 Small A 
2379 AB892 c26k3 Big E 
2385 AB912 c26k9 Big E 


2391 AB983 c26k15 Big E 
> n <- dim(muestra) [1] 

>n 

[1] 399 


En el anterior caso particular, el arranque aleatorio fue igual a tres; por tanto, la 
muestra está conformada por los elementos 3, 9, ..., 2385 y 2391 del marco de 
muestreo. Una vez recolectada la información de la muestra, se procede a realizar 
la estimación mediante el uso de la función] JE. SY del paquete TeachingSampling 
cuyos argumentos son N, a y un conjunto de datos conteniendo la información de 
las características de interés para cada elemento en la muestra. 


> estima <- data.frame(Income, Employees, Taxes) 
> E.SY(N, a, estima) 


Income Employees Taxes 
Total estimado 1.054295e+06 1.524350e+05 3.058000e+04 
Varianza 7.652192e+08 1.196375e+07 3.658156e+06 


coeficiente de variación 2.623800e+00 2.269075e+00 6.254515e+00 


Los resultados de la estimación se muestran en la tabla 3.9. Es de considerar que 
la eficiencia de esta estrategia de muestreo es mucho mayor a la de una estrategia 


1Dado que no existe el estimador genérico para la varianza del estimador de Horvitz- 
Thompson, esta función utiliza una aproximación conservadora de la varianza suponiendo que se 
realizó un muestreo aleatorio simple. 
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que utilice un diseño de muestreo aleatorio simple. Nótese que los coeficientes de 
variación son mucho menores y también, aunque este es un argumento un poco 
más débil, la desviación relativa es menor. 


Tabla 3.9: Muestreo sistemático: estimación de los totales de las características de 
interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1054295 2.62 1.84 
Empleados 151950 152435 2.27 0.32 
Impuestos 28654 30580 6.25 6.72 


Es hora de preguntarse, ¿por qué los resultados de las estimaciones son mejores 
que en otro tipo de estrategias de muestreo? Vamos a realizar un procedimiento 
de evaluación, puramente académico, y vamos a suponer que tenemos acceso a la 
información de la característica de interés a nivel poblacional. 


En primer lugar, se realiza un análisis de varianza para obtener la descomposi- 
ción de las sumas de cuadrados para la característica de interés Income. Para 
esto usamos la función 1m que relaciona a la variable de interés con un factor de 
agrupamiento. La variable grupo fue creada como un vector de cinco niveles y 
puede ser usada en este caso. Aplicando la función anova al modelo, se obtiene 
una tabla de sumas de cuadrados. 


> data(Lucy) 

> attach(Lucy) 

> anova(lm(Income”grupo)) 
Analysis of Variance Table 


Response: Income 

Df Sum Sq Mean Sq F value Pr(>F) 
grupo 5 12359 2472 0.0346 0.9994 
Residuals 2390 170698187 — 71422 


Siguiendo a Dalgaard (2008), en la mayoría de textos estadísticos (incluyendo el 
que el lector tiene en sus manos) las sumas de cuadrados son rotuladas como SCD, 
SCE y SCT. Sin embargo, R usa una rotulación diferente. La variación entre los 
grupos es rotulada con el nombre del factor de agrupación, en este caso grupo. La 
variación dentro de los factores de agrupación es rotulada como Residuals. Por 
tanto, se observa que la variación total se encuentra dentro de los grupos; mientras 
que existe una baja variación entre los grupos. Esto es bueno para efectos de la 
eficiencia de la estrategia. 


Por un lado, al observar la gráfica de la característica de interés con respecto al 
ordenamiento natural del marco de muestreo, no es posible identificar un patrón 
lineal o de periodicidad, cuando realizamos el gráfico con respecto a los grupos, nos 
damos cuenta de que dentro de ellos existe una muy alta variabilidad y más aún, 
los cinco grupos tiene un comportamiento parecido entre ellos. El código necesario 
para la creación de este gráfico está dado a continuación. 


> par(mfrow=c(1,2)) 
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SO O TNT 0 O OO [=] 


Income 
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Figura 3.5: Nube de puntos de Ingreso y su respectiva variación de los grupos. 


> plot (Income) 
> stripchart(Income” grupo) 


Por otro lado, el ordenamiento aleatorio se observa muy claramente en la figura 
3.6., en dónde los puntos marcados corresponden a los elementos seleccionados. 
Nótese la buena dispersión de la muestra en la población, haciéndola representa- 
tiva. El código necesario para la creación de este gráfico es el siguiente. 


> plot (Income) 
> points(sam, Income[sam],col = "red", pch=19) 


Es claro que esta estrategia de muestreo resulto más eficiente que la estrategia de 
muestreo aleatorio simple. Pero, ¿cuánto más eficiente?. Con unos simple cálculos 
algebraicos se obtiene un coeficiente de correlación intra-clase muy cercano a cero 
y esto es bueno puesto que cumple con los requerimientos en la definición de p. 


> rho <- 1-(n/(n-1))*(170698187/(170698187+12359)) 
> rho 

[1] -0.002439984 

> rho < 1/(1-N) 

[1] TRUE 


Sin embargo, lo verdaderamente asombroso es que la ganancia en eficiencia al usar 
este diseño es de veintinueve veces puesto que el efecto de diseño es aproximada- 
mente 0.034. 


> Deff <- (N-1)x*(1+(n-1)x*rho)/(N-n) 
> Defíf 

[171 0.03464363 

> 1/Deff 

[1] 28.86534 
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Figura 3.6: Casos seleccionados en muestreo sistemático. 


> VarHT <- Nx*12359 
> VarHT 
[1] 29612164 


Los anteriores diseños de muestreo pertenecen al grupo de los diseños de probabi- 
lidad de inclusión constante. En el siguiente capítulo veremos diseños con proba- 
bilidad de inclusión proporcional al tamaño que hace uso de información auxiliar 
continua en el marco de muestreo. 


3.5 Ejercicios 


3.1 Suponga una población de 10 elementos U = [e1,e2,...,e10). 


e Seleccione una muestra mediante un diseño Bernoulli con probabilidad de 
inclusión 7 = 0.4, utilizando el algoritmo de la sección 3.1.1. y teniendo 
en cuenta que para cada elemento en la población se obtuvo el siguiente 
conjunto de números aleatorios uniformes 


e = (0.152, 0.158, 0.614, 0.593, 0.140, 0.851, 0.803, 0.996, 0.433, 0.790) 


e Otra manera de seleccionar una muestra Bernoulli es generando un sólo 
número aleatorio de una distribución Binomial(N, rr); este valor gene- 
rado es el tamaño de muestra n(S) y con ayuda del marco de muestreo 
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se selecciona una muestra aleatoria simple de tamaño n(S). Suponiendo 
que la realización de Binomial(10, 0.4) fue n(s) = 5, utilice el algoritmo 
coordinado negativo para la selección de una muestra, teniendo en cuenta 
que para cada elemento en la población se obtuvo el siguiente conjunto 
de números aleatorios uniformes 


€ = [0.370,0.561, 0.064, 0.412, 0.952, 0.461,0.256, 0.275, 0.213, 0.443) 


3.2 Complete el cálculo léxico-gráfico del ejemplo 3.1.1. 


3.3 En un estudio de calidad de vida en cárceles, se utilizó un diseño de muestreo 
Bernoulli con probabilidad de inclusión r = 0.15 para seleccionar una muestra 
de reclusos. En la penitenciaría hay 1243 reclusos y se observaron las carac- 
terísticas de interés CVDP y OTMA para los presos incluidos en la muestra. 
Además se obtuvieron los siguientes resultados 


Característica D.Yk D.Y 
CVDP 5412 95299 
OTMA 82503 604926 


e Utilice el estimador de Horvtiz-Thompson para calcular una estimación 
del total poblacional, el coeficiente de variación estimado y un intervalo 
de confianza al 95% para estas características de interés. 


e Utilice el estimador de Horvtiz-Thompson para calcular una estimación 
de la media poblacional, el coeficiente de variación estimado y un intervalo 
de confianza al 95% para estas características de interés. 


e Si el tamaño de muestra efectivo fue 191, utilice el estimador alterna- 
tivo para calcular una estimación del total poblacional y de la media 
poblacional. 


3.4 Suponga una población de 12 elementos U = [e,,€e2,...,e12). Seleccione una 
muestra aleatoria simple sin reemplazo de tamaño n = 4 utilizando el algorit- 
mo de Fan-Muller-Rezucha teniendo en cuenta que para cada elemento en la 
población se obtuvo el siguiente conjunto de números aleatorios uniformes 


€ = (0.787, 0.946, 0.766, 0.338, 0.520, 0.849, 0.828, 0.165, 0.416, 0.105, 0.069, 0.853) 


3.5 Complete el cálculo léxico-gráfico del ejemplo 3.2.2. 


3.6 Demuestre o refute la siguiente afirmación: «En muestreo aleatorio simple, 
para la estimación de un total poblacional, el estimador de Horvitz-Thompson 
coincide con el estimador altervativo>. 


3.7 Demuestre o refute la siguiente afirmación: «En muestreo aleatorio simple, 
para la estimación de un total en dominios de interés, se cumple siempre que 
D A A 
oa tud, > tyr>- 


3.8 Demuestre o refute la siguiente afirmación: «En muestreo aleatorio simple, 
el coeficiente de variación estimado del estimador de Horvitz-T'hompson pa- 
ra el total poblacional es menor que el coeficiente de variación estimado del 
estimador de Horvitz-T'hompson para la media poblacional». 
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3.9 En un estudio de satisfacción empresarial en una entidad prestadora de salud 
que sirve a 748 asociados, se quiere averiguar el promedio del número de horas 
al mes (NHM) que los asociados permanecen en consulta médica. Para esto 
se planea un muestreo aleatorio simple pues se conoce que, para este caso 
particular, una aproximación para la varianza de esta característica de interés 
es de 3.4839 y para el coeficiente de variación es de 0.5324. 


e Con una confianza del 95%, determine el tamaño de muestra mínimo 
para estimar el parámetro de interés con un error absoluto no mayor 15 
minutos. 


e Con una confianza del 95%, determine el tamaño de muestra mínimo 
para estimar el parámetro de interés con un erro relativo no mayor a 2%. 


3.10 Demuestre las siguientes igualdades 


n-1)Ss =D (uy) =) 1% Qres Y) 


kES eS ds 
O rev yr)? 
(NDS =D (y Ju) = y; A 
keU keU 


3.11 Demuestre rigurosamente los resultados 3.2.7 y 3.2.8. 


3.12 Para el ejercicio 3.9, suponga que se deciden realizar n = 50 entrevistas y que 
se obtuvo que 7, yx = 178 y Y. y; = 826. A continuación se presenta una 
tabla de frecuencias de las observaciones 


NHM 0.1. 2.3456 .7 8 
Frecuencia 1 5 13 9 7 4 6 4 1 


e Obtenga una estimación de Horvitz-Thompson para el total de horas 
mensuales que los asociados permanecen en consulta médica, reporte el 
coeficiente de variación estimado y un intervalo de confianza al 95%. 


e Obtenga una estimación de Horvitz-Thompson para el promedio de horas 
mensuales que los asociados permanecen en consulta médica, reporte el 
coeficiente de variación estimado y un intervalo de confianza al 95%. 


e Obtenga una estimación de Horvitz-T'hompson para el total de asocia- 
dos que permanecen en consulta médica menos (estrictamente) de cuatro 
horas, reporte el coeficiente de variación estimado y un intervalo de con- 
fianza al 95%. 


e Obtenga una estimación de Horvitz-Thompson para la proporción de 
asociados que permanecen en consulta médica, más (estrictamente) de 
seis horas, reporte el coeficiente de variación estimado y un intervalo de 
confianza al 95 %. 


3.13 Complete el cálculo léxico-gráfico del ejemplo 3.3.3. 
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3.14 


3.15 


3.16 


3.17 


3.18 


3.19 


Para una población de N = 10 elementos se planeó diseño aleatorio simple 
con reemplazo de tamaño de muestra m = 6. Complete la siguiente salida del 
algoritmo secuencial utilizado para la extracción de la muestra 


k nbin pbin nk 
[4.52] 0 
[2,] 6 0.1111111 3 
[3,] 1 
[4,] 2 0.1428571 0 
[5,] 0.1666667 1 
[6,] 1 

[7,] 1 0.2500000 0 
[8,] 0 
[9,] d: 0 

[10,] 1 1 


Suponga que se realizó un muestreo aleatorio simple con reemplazo para la 
población del ejercicio 3.3. 


e Utilice el estimador de Hansen-Hurwitz para obtener una estimación del 
total poblacional para características de interés CVDP y OTMA, re- 
porte el coeficiente de variación estimado y un intervalo de confianza del 
95%. 


e Bajo el supuesto de muestreo aleatorio simple con reemplazo, construya 
las probabilidades de inclusión de primer y segundo orden y utilice el 
estimador de Horvitz-Thompson para calcular una nueva estimación del 
total poblacional para las características de interés. 


Demuestre o refute la siguiente afirmación: «Para tamaños de muestra iguales, 
la estrategia de muestreo aleatorio simple con reemplazo junto con el estimador 
de Hansen-Hurwitz es siempre de menor varianza que la estrategia de muestreo 
aleatorio simple sin reemplazo junto con el estimador de Horvitz-Thompson>. 


Demuestre o refute la siguiente afirmación: «El diseño de muestreo sistemático 
es de tamaño de muestra fijo>. 


Demuestre o refute la siguiente afirmación: «Aunque no existe la estimación 
de la varianza del estimador de Horvitz-Thompson en muestreo sistemático, 
es siempre conveniente reemplazarla por la expresión de la varianza estimada 
en un diseño aleatorio simple». 


Para estimar el total de horas diarias que los estudiantes permanecen en la 
biblioteca de una universidad, se utilizó un diseño de muestreo sistemático con 
dos arranques aleatorios. La población fue divida en siete grupos latentes y se 
seleccionó una muestra simple de dos enteros entre el uno y el siete. Los enteros 
seleccionados son el 3, y 7. Lo anterior implica que la muestra de estudiantes, 
que serán entrevistados a la salida de la biblioteca, está conformada por dos 
grupos. Á saber el grupo s3 conformado por los estudiantes 3, 10, 17, ... y el 
grupo s7 conformado por los estudiantes 7, 14, 21, ...Los resultados del sondeo 
para los dos grupos se dan acontinuación 
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ts, = Y ys = 3574 ta, = Y ys = 5024 


83 s7 


Calcule una estimación insesgada para el número total de horas de permanen- 
cia en la biblioteca, reporte el coeficiente de variación estimado y un intervalo 
de confianza al 95 %. 


3.20 Suponga una población de 9 elementos cuyos valores para la característica de 
interés se dan a continuación 


y = (23, 20,24, 31,24, 29,25, 33, 21) 


e Utilice el análisis de varianza (ANOVA) para calcular la varianza del 
estimador de Horvitz-Thompson en un diseño de muestreo sistemático 
simple con a = 2 grupos. 


e Calcule el coeficiente de variación intra-clase y el efecto de diseño. Decida 
si, para este caso particular, el diseño sistemático es más eficiente que el 
diseño de muestreo aleatorio simple. 


3.21 Demuestre o refute la siguiente afirmación: <En un diseño de muestreo sis- 
temático, si hay homogeneidad dentro de los grupos y heterogeneidad entre 
sus medias, entonces este diseño es menos eficiente que el diseño de muestreo 
aleatorio simple>. 


Capítulo 4 


Muestreo con probabilidades 
proporcionales 


Es bien sabido que la estrategia de muestreo que utiliza un diseño de 
muestreo aleatorio simple con el estimador de Horvitz-Thompson, es una 
estrategia de muestreo óptima, bajo ciertas formulaciones, si se tiene un 
conocimiento a priori de que el comportamiento de la población es simétri- 
co con respecto a los rótulos. En tales casos, la incorporación de informa- 
ción auxiliar no mejora la anterior estrategia. 


Claes-Magnus Cassel (1976) 


Las estrategias de muestreo implementadas en el capítulo anterior, utilizaban 
métodos de selección tales que la probabilidad de inclusión o probabilidad de 
selección es idéntica para todos los elementos de la población y se estimaban los 
parámetros de interés utilizando el estimador de Hansen-Hurwitz, para diseños 
de muestreo con reemplazo y el estimador de Horvitz-Thompson, para diseños de 
muestreo sin reemplazo. Las anteriores estrategias no tienen en cuenta la variación 
innata de las características de interés a través de las unidades poblacionales. Por 
lo tanto, los anteriores estimadores, dada su construcción genérica y el principio 
de representatividad, tenderán a poseer una gran variación. 


Raj (1968) afirma que, en cuestión de precisión, se puede tener una mayor ga- 
nancia cuando se utilizan diseños de muestreo con probabilidades desiguales. En 
la mayoría de los casos prácticos, la característica de interés no presenta un com- 
portamiento uniforme con respecto a los rótulos de la población. Sin embargo, 
cuando el marco de muestreo disponible para la selección de la muestra contiene 
además de la identificación y la ubicación de los elementos en la población, una 
característica auxiliar continua disponible para todos los elementos de la población 
Tk VkE€U, es posible utilizar diseños de muestreo que implementen métodos de 
selección cuyas probabilidades de selección o inclusión, dependiendo del caso, sean 
proporcionales al total de la característica auxiliar, t.. 
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4.1 Diseño de muestreo de Poisson 


Este diseño de muestreo es una generalización del diseño de muestreo Bernoulli, en 
donde las probabilidades de inclusión están dadas a priori de manera independiente 
para cada individuo. Brewer (2002) indica que este diseño de muestreo no tuvo 
originalmente ninguna implicación práctica, porque el tamaño de muestra no es 
fijo, sino que fue utilizado de manera teórica para describir las propiedades de otros 
estimadores. El primer caso práctico se dio en la selección de muestras de árboles 
en unidades forestales; más adelante se aplicó en el censo anual manufacturero en 
Estados Unidos. Aunque este diseño de muestreo no utiliza información auxiliar 
para la selección de la muestra, sirve como punto de partida para examinar diseños 
de muestreo más complejos que sí lo utilizan. 


Definición 4.1.1. Siendo rx un número positivo, tal que 0 < Tx < 1, que re- 
presenta la probabilidad de inclusión del k-ésimo elemento, el diseño de muestreo 
Poisson se define de la siguiente manera 


p(s) = II Tk [[a —Tk) para todo s € Q (4.1.1) 


kEs kés 
con (), el soporte que contiene a todas las posibles muestras sin reemplazo. 


Resultado 4.1.1. Para este diseño de muestreo, el soporte Q tiene cardinalidad 
igual a 


Ejemplo 4.1.1. En nuestra población ejemplo 
U = [Y ves, Ken, Erik, Sharon, Leslie) 


Las probabilidades de inclusión 7, son 0.2, 0.5, 0.7, 0.5 y 0.9, respectivamente. 
Las posibles muestra pueden ser de tamaño 0, 1, 2,3, 46 5. La probabilidad de la 
muestra de tamaño O es 


(1 — 0.2) x (10.5) x (10.7) x (1 — 0.5) x (1 — 0.9) = 0.006 


Siguiendo esta misma analogía, a continuación se presenta el cálculo léxico-gráfico 
para las probabilidades de selección de todas las posible muestras en el soporte de 
este diseño de muestreo. Para las posibles muestras de tamaño 1, 4 se tiene que 
sus respectivas probabilidades son: 


s p(s) | s p(s) 
Yves 0.0015 | Yves, Ken, Erik, Sharon 0.0035 
Ken 0.006 | Yves, Erik, Sharon, Leslie 0.0315 
Erik 0.014 | Yves, Ken, Erik, Leslie 0.0315 
Sharon 0.006 | Yves, Ken, Sharon, Leslie 0.0135 
Leslie 0.054 | Ken, Erik, Sharon, Leslie 0.126 
Total 0.0815 | Total 0.206 


Las posibles muestras de tamaño 2, 3 y sus respectivas probabilidades son: 
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s p(s) | s p(s) 
Yves, Ken 0.0015 | Yves, Ken, Erik 0.0035 
Yves, Erik 0.0035 | Yves, Ken, Sharon 0.0015 
Yves, Sharon 0.0015 | Yves, Ken, Leslie 0.0135 
Yves, Leslie 0.0135 | Yves, Erik, Sharon 0.0035 
Ken, Erik 0.014 | Yves, Erik, Leslie 0.0315 
Ken, Sharon 0.006 | Yves, Sharon, Leslie 0.0135 
Ken, Leslie 0.054 | Ken, Erik, Sharon 0.014 
Erik, Sharon 0.014 | Ken, Erik, Leslie 0.126 
Erik, Leslie 0.126 | Ken, Sharon, Leslie 0.054 
Sharon, Leslie 0.054 | Erik, Sharon, Leslie 0.126 

Total 0.288 | Total 0.387 


Finalmente, la muestra de tamaño 5, (Yves, Ken, Erik, Sharon, Leslie), tiene pro- 
babilidad 0.0315. Nótese que la suma de todas las posibles muestras es »p(s) = 1. 


4.1.1 Algoritmo de selección 


Bautista (1998) afirma que el conocimiento a priori de las probabilidades de in- 
clusión de los elementos es tal que, en algunas ocasiones, existen elementos de la 
población que deben ser observados obligatoriamente en la muestra, en estos casos 
el valor de la probabilidad de inclusión de estos elementos es igual a uno (mz = 1). 
Al subgrupo poblacional cuyos elementos tienen probabilidad de inclusión igual a 
uno, se le conoce como subgrupo de inclusión forzosa. Nótese que el algoritmo de 
selección de muestra utilizado debe contemplar la inclusión en todas las posibles 
muestras realizadas de todos los elementos del subgrupo de inclusión forzosa. 


La selección de una muestra con diseño de muestreo Poisson se realiza mediante 
un algoritmo secuencial definido de manera similar que el algoritmo utilizado en 
la selección de muestras con diseño de muestreo Bernoulli. 


1. Fijar para cada k € U el valor de la probabilidad de inclusión mz tal que 
0O<TÍ.<l. 


2. Obtener e, para k € U como N realizaciones independientes de una variable 
aleatoria con distribución uniforme en el intervalo [0, 1]. 


3. El elemento k-ésimo pertenece a la muestra con probabilidad Tx. Es decir, 
si €, < Tr el individuo k-ésimo es seleccionado. 


Dado que £; - Unif[0, 1], se tiene que Pr(ez < rx) = Ty para k € U. Por tanto, 
la inclusión de los individuos k-ésimo y l-ésimo, para k X l, es independiente; sin 
embargo, la distribución de I;(S) no es de tipo Binomial puesto que las variables 
aleatorias 1 (S) no son idénticamente distribuidas. 


Resultado 4.1.2. Bajo muestreo Poisson, el tamaño de muestra n(S) es una 
variable aleatoria, tal que 


E(m(S)) = Y rx Var(n(S)) = Y ri(1— m1) (4.1.2) 
U U 
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Prueba. Utilizando el resultado 2.1.4 y las propiedades de una suma de cuadrados 
es suficiente probar que rg = Pr(k € S,l € S) = yr, para k 4 l, lo cual se tiene 
de inmediato dado que las variables aleatorias [y(S) e 1,(S) son independientes. Mi 


Resultado 4.1.3. Para el diseño de muestreo Poisson, las probabilidades de in- 
clusión de primer y segundo orden están dadas por: 


Tk = Tk (4.1.3) 
k=1l 
Tu = a ns (4.1.4) 
TkT] en otro caso 


respectivamente. 


4.1.2 El estimador de Horvitz-Thompson 


Resultado 4.1.4. Para el diseño de muestreo Poisson, el estimador de Horvitz- 
Thompson, su varianza y su varianza estimada están dados por: 


a . (4.1.5) 
S 
Varpoltyn) =>» (= a 1) Y (4.1.6) 


Varpollyr) = 118) (2) (4.17) 


respectivamente. 


Prueba. Utilizando el resultado 2.2.2, se sigue que la demostración es inmediata 
puesto que 


ts (at = TT], — TT =0 parakAXl (4.1.3) 


Tk — Tí = Tp(1 — Try) para k=1 


luego la doble suma en la varianza del estimador de Horvitz-T'hompson pasa a ser 
una sola suma. La demostración para el estimador de la varianza se lleva a cabo 
de manera análoga. mn 


Ejemplo 4.1.2. Para nuestra población de ejemplo U, suponga que el individuo 
Erik debe estar en la muestra seleccionada; es decir, Tgrix = 1. Por tanto, existen 
(5) 2* — 16 posibles muestras. Si el vector de probabilidades de inclusión para 
cada elemento de la población está dado por (0.5, 0.2, 1,0.9,0.5). Realice el cálculo 
léxico-gráfico del estimador de Horvitz-Thompson y compruebe el insesgamiento, 
la varianza y las propiedades del diseño de muestreo. 
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4.1.3 Optimalidad en la estrategia de muestreo Poisson 


Como se mencionó en capítulos anteriores, una estrategia de muestreo que uti- 
lice el estimador de Horvitz-Thompson, es óptima cuando las probabilidades de 
inclusión inducidas por el diseño de muestreo utilizado están correlacionadas po- 
sitivamente con la característica de interés; en otras palabras, cuando Try x yx. En 
este caso utópico, y si se supone que el diseño de muestreo es de tamaño de mues- 
tra fijo (n(S) = n), el estimador de Horvitz-Thompson reproduciría el parámetro 
de interés ty con varianza nula cuando las probabilidades de inclusión toman la 
siguiente forma Tr = ne De esta forma, la estrategia utilizada sería una estrate- 
gia representativa con respecto a la variable de interés, puesto que para cualquier 
muestra seleccionada, el estimador de Horvitz-Thompson sería igual a ty. 


Resultado 4.1.5. Suponiendo un tamaño de muestra fijo, bajo un diseño de mues- 
treo Poisson, la varianza del estimador de Horvitz-Thompson se minimiza cuando 


NYk 


M Nu Yk 


Prueba. El objetivo es encontrar valores de rx, tales que O < mz < 1 que mi- 
nimicen la varianza del estimador de Horvitz-Thompson bajo diseño de muestreo 
Poisson, lo anterior se tiene cuando se realiza un censo, es decir cuando Tp = 1 
para todo k € U. Sin embargo, en la práctica se desea seleccionar una muestra de 
tamaño menor a N. Por tanto, minimizar Varpo(ty,x) es equivalente a minimizar 


(4.1.9) 


Tk 


2 
Uk . S . ./, -= . an 
y 7 sujeto a la restricción de un tamaño de muestra fijo, tal que Ny Tk = 2. 


Luego la cantidad a minimizar está dada por el siguiente producto 


23) (2-) 


Una solución al anterior problema es utilizar la desigualdad de Cauchy-Schwartz, 


20 (7) (29) 


Con igualdad cuando e c, con c una constante. Ahora, se tiene que 
Tk 
"-En-pe 
C 
U U 
Luego, 
Uk 
c= = 
2 
U 


Por tanto, 
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El anterior resultado es una ambigúedad puesto que con esa escogencia de las 
probabilidades de inclusión se asume que la característica de interés es conocida 
para toda la población. Si lo anterior sucede, no existiría la necesidad de estimar t,. 
Sin embargo, Sárndal, Swensson € Wretman (1992) aseguran que como el diseño 
de muestreo Poisson es de tamaño de muestra variable es ineficiente y utilizar el 
anterior razonamiento implicaría que el estimador de Horvitz-Thompson tome la 


siguiente forma 
lun => LES jj 28) (4.1.10) 
y, mn 1 


Por tanto, la variación del estimador calculado en cada muestra estaría dada por la 
variación del tamaño de muestra esperado n(S). El anterior razonamiento nos lleva 
a pensar que el estimador de Horvitz-Thompson tendría un excelente desempeño 
bajo diseños de muestreo tales que Tz x Yx y que induzcan muestras de tamaño 
fijo. Por otro lado, si el marco de muestreo tiene la virtud de adjuntar información 
auxiliar continua, por medio de una característica de interés xy (en otras palabras, 
conocer el vector de características auxiliares 1,,12,..., Y y antes de realizar el 
muestreo) que esté muy bien correlacionada con la variable de interés, entonces la 
varianza de la estrategia de muestreo sería mínima cuando 


(4.1.11) 


Por otro lado, y siguiendo el mismo razonamiento que en el diseño de muestreo 
Bernoulli, como se tiene un marco de muestreo de elementos, entonces se conoce el 
tamaño poblacional NV. De esta manera, un estimador para el total poblacional de 
la característica de interés con menor varianza es el llamado estimador alternativo 
dado por la expresión (2.2.18), que para el caso particular de muestreo Poisson 


toma la siguiente forma 


»  N 
ty alt 5 tuya 7 (4.1.12) 


T 


Para estimar la media poblacional, es posible utilizar este mismo razonamiento y 
junto con la expresión (2.2.15) resulta un estimador menos disperso 


is = 2% (4.1.13) 


La forma estructural de los anteriores estimadores es una razón, cociente de dos 
cantidades aleatorias, y así se reduce parte de la variabilidad del estimador de 
Horvitz-Thompson que viene del hecho de que el tamaño muestral no es fijo para 
este diseño. 


4.1.4 Marco y Lucy 


Aunque esta estrategia de muestreo no fue utilizada en el sentido práctico y tiene 
una varianza alta dado que el tamaño de muestra es variable, es posible obtener 
buenos resultados que incentivar el uso de las estrategias de muestreo con proba- 
bilidad proporcional al tamaño. En primer lugar, se debe suponer que el marco de 


4.1. Diseño de muestreo de Poisson 127 


muestreo contiene una característica auxiliar continua que será usada en la etapa 
de diseño y selección de la muestra. 


Raj (1968) señala que en el caso concreto de una población agrícola, una caracterís- 
tica auxiliar puede ser el área cultivada, para el caso de hogares, una característica 
auxiliar puede ser el número de personas que habitan en el hogar. Lehtonen éz 
Pahkinen (2003) dan ejemplos claros acerca de las características auxiliares en 
encuestas de empresas y afirman que para este caso particular una característica 
auxiliar comúnmente usada es el número de empleados en la empresa; para el caso 
de encuestas a escuelas, una característica auxiliar es el número de alumnos. En 
encuestas a hospitales Bautista (1998) afirma que una característica auxiliar es el 
número de camas por hospital, no así el número de pacientes, pues esta última 
característica tiene una variación alta y está ligada a la temporada de realización 
de la encuesta. 


Recuérdese que se quieren estimar tres totales de las características de interés 
Ingreso, Empleados e Impuestos del último periodo fiscal en las empresas del sec- 
tor industrial. Para efectos prácticos, suponga que el marco de muestreo contiene 
todos los registros de cada una de las empresas del sector industrial de la carac- 
terística Ingreso; de esta manera se podrá estimar el total poblacional para las 
características Empleados e Impuestos. Para efectos académicos, se estimará el 
total poblacional de la característica Ingreso, resaltando que hacerlo es una am- 
bigúedad porque si se conocen todos los valores poblacionales de la característica 
de interés no hay necesidad de estimar lo que ya es conocido; sin embargo, como 
ejercicio académico es completamente admisible. 


Con los supuestos anteriores, el marco de muestreo se carga en el ambiente de pro- 
gramación de R, nótese que el marco de muestreo ahora contiene cinco columnas, 
cuatro que se refieren a la identificación y/o ubicación geográfica y una columna 
que contiene los registros para la característica Ingreso. 


> data(Lucy) 
> dim(Lucy) 
[1] 2396 5 


Las probabilidades de inclusión deben ser creadas y están dadas por (4.1.9). Nótese 
que se debe fijar un tamaño esperado de muestra. Para que los resultados sean 
comparables, se utilizará un tamaño esperado de muestra de n(S) = 400. Una vez 
que las probabilidades de inclusión para todas las empresas del sector industrial 
han sido creadas, se debe verificar que cada una de ellas sea menor a la unidad; 
para esto, se utiliza la función which que R trae implementada en su ambiente 
básico y cuya salida es un conjunto de índices para los cuales la instrucción dentro 
del paréntesis es verdadera; cuando no existe ningún índice que cumpla (pik>1), 
la función arroja la siguiente salida integer (0). Sin embargo, si hubiese existido 
algún registro para el cual la instrucción (pik>1) sea cierta, se deben convertir 
las respectivas probabilidades de inclusión en la unidad. 


> attach(Lucy) 

> N <- dim(Lucy) [1] 

> n <- 400 

> pik <- n*Income/sum(Income) 
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> which(pik>1) 
integer (0) 

> sum(pik) 

[1] 400 


Nótese que la suma de las probabilidades de inclusión es igual al tamaño de muestra 
esperado. 


> cor(pik,cbind(Income, Employees, Taxes)) 
Income Employees Taxes 
[1,] 1 0.645536 0.916954 


La correlación entre las probabilidades de inclusión inducidas mediante este diseño 
de muestreo Poisson es buena. Por supuesto, la correlación entre las rr; y la variable 
ingreso es uno pues las primeras son función lineal de Ingreso. Ahora, la cantidad 
de impuestos que las empresas del sector industrial declaran en un año fiscal, es 
proporcional al ingreso de las mismas; de hecho, si una empresa tiene ganancias 
nulas, entonces declarará impuestos nulos. Por otro lado, aunque una empresa 
tenga ganancias nulas, no necesariamente tendrá cero empleados; de hecho, en el 
sector industrial existen casos en donde una empresa con pocos empleados, tiene 
ingresos más altos que una empresa con muchos empleados; sin embargo, esta 
particularidad no se presenta de manera general, si esto fuera así, la correlación 
sería negativa y la característica de auxiliar Ingreso no debería ser utilizada en 
la estimación del total de la característica de interés Empleados. La figura 4.1 
muestra el diagrama de dispersión de las tres variables de interés contra el vector 
de probabilidades de inclusión. 
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Figura 4.1: Correlación de las probabilidades de inclusión con las características 
de interés. 


Para seleccionar la muestra bajo un diseño de muestreo Poisson, se utiliza la fun- 
ción S.PO del paquete TeachingSampling. Esta función consta de dos argumentos, 
N, el tamaño poblacional y pik, el vector de probabilidades de inclusión para ca- 
da elemento de la población. En nuestro caso, pik es el vector de probabilidades 
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creado anteriormente; pero, en general, puede ser utilizado cualquier vector de 
números entre cero y uno. La función S.PO devuelve un conjunto de índices que 
aplicados a la población resulta en los valores de las características de interés para 
cada miembro de la muestra seleccionada. 


> sam <- S.PO(N,pik) 
> muestra <- Lucylsam,] 
> attach(muestra) 
> muestra 

Identificador Ubicación Level Zona Income 
3 ABO03 c1k3 Pequeño A 405 
11 ABO11 c1k11 Pequeño A 374 
13 ABO13 c1k13 Pequeño A 2402 
2394 AB986 c26k18 Grande E 1297 
2395 AB987 c26k19 Grande E 1640 


> n.s <- dim(muestra) [1] 
> n.s 
[1] 404 


En este caso particular, la primera empresa seleccionada es la identificada con el 
número ABO0O03 y la última empresa en ser seleccionada es la identificada con el 
número AB987. Nótese que el marco de muestreo incluye la característica auxi- 
liar Ingreso y que el tamaño efectivo de muestra es 404. Una vez que el trabajo 
de campo ha concluido, comienza la etapa de estimación, en donde se utilizará 
la función E.PO del paquete TeachingSampling que consta de dos argumentos, la 
matriz o vector de valores de la o las características de interés y pik.s los valores 
del vector de probabilidad de inclusión de cada uno de los elementos seleccionados 
en la muestra. En este caso particular se crea un conjunto de datos con la infor- 
mación muestral de las características de interés llamado estima. Nótese que la 
longitud del vector pik.s es de 404. La función E.PO devuelve las estimaciones del 
total poblacional, la varianza estimada y el respectivo coeficiente de variación de 
la(s) característica(s) de interés. 


> pik.s <- pik[sam] 
> estima <- data.frame(Income, Employees, Taxes) 
> E.PO(estima,pik.s) 


Income Employees Taxes 
Total estimado 1.071450e+06 1.661678e+05 2.895542e+04 
Varianza 2.150761e+09 9.686064e+07 1.717237e+06 


coeficiente de variación 4.328369e+00 5.922798e+00 4.525695e+00 


La tabla 4.1. muestra los resultados particulares para esta estrategia de muestreo. 
Nótese que la característica Impuestos, tiene un menor coeficiente de variación 
porque está mucho mejor correlacionada con el vector de probabilidades de inclu- 
sión, mientras que la característica Empleados presenta un mayor coeficiente de 
variación. Desde un punto de vista completamente académico, está bien afirmar 
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que la estrategia de muestreo utilizada puede ser optimizada si se utiliza un diseño 
de muestreo con probabilidades de inclusión proporcionales al tamaño de algu- 
na característica auxiliar, pero que induzca muestras de tamano fijo. Nótese que, 
aunque el vector de probabilidades de inclusión tiene una correlación de uno con 
respecto a la característica Ingreso, el coeficiente de variación estimado para esta 
es de un 4.32%, cifra que no es alta, pero que no paga el precio de utilizar esta 
información auxiliar en la etapa de diseño. Véase que los coeficientes de variación 
son un poco más bajos que al utilizar un diseño de muestreo Bernoulli, pero no 
más bajos que los obtenidos al usar un diseño de muestreo aleatorio simple. 


Tabla 4.1: Muestreo Poisson: estimación de los totales de las características de 
interés. 


Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1071450 4.32 3.50 
Empleados 151950 166167 5.92 9.36 
Impuestos 28654 28955 4.52 1.05 


La figura 4.2. muestra el comportamiento del estimador de Horvitz-Thompson para 
el total poblacional de la característica Ingreso. Se realizaron varios experimentos 
de Monte Carlo con el propósito de tener un examen más cercano del estimador 
de Horvitz-Thompson del total de la característica Income en la población Lucy. 
El resultado de la simulación se muestra en el histograma. 
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Figura 4.2: Distribución muestral del estimador de Horvitz- Thompson bajo diseño 
Poisson. 


La media de las estimaciones de ty es 1035851 que ajusta bien con el parámetro 
correspondiente ty = 1035217. La distribución parece ser simétrica con forma de 
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campana (los valores de la distribución teórica se muestran en la curva sólida 
y roja) y no se notan grandes discrepancias entre lo observado y lo teórico. Sin 
embargo, al comparar la distribución de este estimador, se puede afirmar que la 
estrategia es más precisa que las anteriormente utilizadas pues se nota que el rango 
de valores que toma el estimador es menor que bajo otros diseños de muestreo. 


4.2 Diseño de muestreo PPT 


Siguiendo con el razonamiento que se introdujo en la sección anterior, Bautista 
(1998) afirma que en un diseño de muestreo con reemplazo, los valores óptimos de 
las probabilidades de selección para cada elemento de la población tendrían que 
estar dados por 


Uk 
ty 


Con esta escogencia, el estimador de Hansen-Hurwitz estimaría al total poblacional 
de la característica de interés con varianza nula. De otra forma, el tamaño de 
muestra necesario para obtener una estimación con sesgo nulo sería de m = 1. 
Nótese que por (2.2.34), el estimador de Hansen-Hurwitz, es un promedio de m 
estimaciones. Con la escogencia de probabilidades de selección anterior, y con un 
tamaño de muestra de m = 1, se tiene que 


Por supuesto, desde el punto de vista práctico sería una vez más, una ambigúedad 
la escogencia de las anteriores probabilidades de selección. Sin embargo, si el marco 
de muestreo es tal que contiene el valor de una característica continua auxiliar 1; 
bien relacionada con la característica de interés yx para cada elemento de la pobla- 
ción, es posible mediante el estimador de Hansen-Hurwitz, estimar el parámetro de 
interés con una varianza pequeña. De hecho, entre mejor correlación exista entre 
Uk Y Tp Menor varianza tendrá el estimador de Hansen-Hurwitz. 


Definición 4.2.1. Sea xx, el valor de una característica auxiliar continua para el 
elemento k-ésimo tal que: 


1. xx >0 para todo k € U y 


2. xi está disponible y es conocida para todos los elementos de la población. 
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Entonces, se define un diseño de muestreo con probabilidad de selección propor- 
cional al tamaño de la característica auxiliar, de la siguiente manera 


" Mo (2) si Eyne(s)=m 
pls) = ¿2 ni(s)!...ny(s)! ALU | py U (4.2.1) 


0 en otro caso 


Donde ny(s) es el número de veces que el elemento k-ésimo es seleccionado en la 
muestra realizada s y px es la probabilidad de selección del elemento k-ésimo dada 
por 
Zh 
PR=—. (4.2.2) 
ta 


con t. el total poblacional de la característica auxiliar x. 


Resultado 4.2.1. Para este diseño de muestreo, el soporte Q) tiene cardinalidad 
igual a 


m 


0 (Mt) 


Resultado 4.2.2. Dado el soporte (Q, de todas las posibles muestras con reemplazo 
de tamaño m, se verifica que el diseño de muestreo con probabilidad de selección 
proporcional al tamaño de la característica auxiliar es tal que 


S p(s) =1 


seQ 


Prueba. Dado que 


En EE: 
U uU * 


entonces la demostración del resultado es inmediata haciendo uso del teorema 
multinomial. | 


Resultado 4.2.3. Para un diseño de muestreo con reemplazo y con probabilidades 
de selección proporcionales al tamaño de una característica de información auxiliar, 
las probabilidades de inclusión de primer y segundo orden están dadas por 


mi = 1-(1=9y9” -(1-9)" +(1 =p, -p)” 


L 
respectivamente. En donde pj = e 
T 


Prueba. Utilizando el resultado 2.2.9 se llega a la demostración inmediata. Mi 


Cuando se tienen las cantidad del resultado 3.3.3, se pueden implementar los prin- 
cipios del estimador de Horvitz-Thompson para estimar el total poblacional t,; 
sin embargo, el cálculo y estimación de la varianza de esta estrategia de muestreo 
resulta ser muy compleja computacionalmente. 
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4.2.1 Algoritmo de selección 
Método acumulativo total 


Hansen, Hurwitz € Madow (1953) plantearon este método de selección para ser 
utilizado junto con el estimador que lleva su nombre. Este método es conocido 
con el nombre de algoritmo acumulativo total y consiste en m selecciones 
independientes de tamaño 1, tal que: 


e Sea a 
e Sea s 
Lo (4.2.6) 
l=1 
con Tp =0 


e Obtener € como una realización de una variable aleatoria con distribución 
uniforme en el intervalo (0,1). 


e Seleccionar el k-ésimo elemento si Tx-1 < ¿Ty < Tr. 


Al repetir m veces el anterior procedimiento, se ha seleccionado una muestra de un 
diseño con reemplazo con probabilidades de selección son proporcionales al tamaño 
de la característica de interés. Como este diseño de muestreo es con reemplazo, 
cuando existan elementos en la población cuyo valor de la característica auxiliar 
es muy grande, éstos elementos podrán ser seleccionados muchas veces porque sus 
probabilidades de selección son grandes con respecto a los demás elementos. 


Método de Labhiri 


En algunas ocasiones, cuando el tamaño poblacional N es muy grande, el anterior 
método resulta ineficiente. Lahiri (1951) plantea el siguiente algoritmo de selección: 
Siendo M > máx(x1,..., tn), los siguientes dos pasos se ejecutan para seleccionar 
un elemento. 


1. Seleccione un número l de manera aleatoria de una distribución de probabi- 
lidad uniforme discreta en el intervalo [1, WN]. 


2. Seleccione un número y de manera aleatoria de una distribución de proba- 
bilidad uniforme discreta en el intervalo [1, M/]. 


Si y < z;, entonces el elemento l-ésimo es seleccionado. Si, por el contrario, y > 2; 
se repite el procedimiento hasta seleccionar una unidad. Si el tamaño de la muestra 
a seleccionar es m, entonces el anterior esquema se realiza m veces. 


Ejemplo 4.2.1. Suponga que para la población de ejemplo U se tiene conoci- 
miento de cada valor de la siguiente característica de información auxiliar corre- 
lacionada con la característica de interés. 
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> x <- c(52,60,75,100,50) 
> xXx 
[1] 52 60 75 100 50 


Para seleccionar una muestra con probabilidad proporcional a x, se crean las pro- 
babilidades de selección dadas por 


> px <- x/sum(x) 
> pk 
[1] 0.1543027 0.1780415 0.2225519 0.2967359 0.1483680 


Para seleccionar una muestra con reemplazo de la población U mediante el método 
acumulativo total, el paquete TeachingSampling implementa la función S.PPS que 
consta de dos argumentos, m el tamaño de muestra y x la característica de interés 
que contiene todos y cada uno de los valores correspondientes a los elementos de 
la población para la característica auxiliar. 


> sam <- S.PPS(3,x) 
> Ulsam] 
[1] "Sharon" "Sharon" "Leslie" 


La salida de la función S.PPS es un conjunto de índices (no necesariamente distin- 
tos) que aplicados a los rótulos poblacionales proporcionan la muestra seleccionada. 


4.2.2 El estimador de Hansen-Hurwitz 


Hansen € Hurwitz (1943) propusieron el siguiente estimador insesgado para el 
parámetro de interés t, con ayuda de información auxiliar continua en la etapa de 
diseño. 


Resultado 4.2.4. Sea xy, el valor de una característica auxiliar continua, para un 
diseño de muestreo aleatorio proporcional al tamaño con reemplazo, el estimador 
de Hansen-Hurwitz del total poblacional t,,, su varianza y su varianza estimada 
están dados por: 


E) 


Al ta de Uki 
Y y a (4.2.7) 
¿=1 
1 sd Y a 
A k 
Varppr(typ) =D) Pr (Y - t,) (4.2.8) 
k=1 Pr 
ES E 1 m Yi 2 
V tun) = E, 4.2.9 
arppr( y.p) mám — 1) y (Y .) ( ) 


i=1 


respectivamente, con px dados por (4.2.2 . Nótese que cae es insesgado para el total 


poblacional t,, de la característica de interés y, y que Varmrasltyp) es insesgado 
para Varmras (ty p) ñ 
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Prueba. 


NN SA 
5) noz) 


Jl 
+ 
8 
5 
pa 
3 
E 
Res! 
< 
E] 


ta Tk Yk 
== — — = ty 
m E br Dh 


dado que E(n(S)) = mp. Utilizando el resultado 2.2.13 y 2.2.14, se llega a la 
demostración de las varianzas. A 


Resultado 4.2.5. Para el diseño de muestreo PPT, el estimador de Hansen- 
Hurwitz del total de la característica de información auxiliar reproduce ese total 
con varianza nula 


Prueba. Della definición del estimador Hansen-Hurwitz, y de la expresión (4.2.2), 
se tiene que 


Por otro lado, 


1 y z a 
A k 
Varpprr(typ) => ) Pr (2 = ..) (4.2.10) 
m k 
k=1 
E 
=— Y pplta — to)? =0 (4.2.11) 
k=1 
con lo cual se concluye la demostración n 


Resultado 4.2.6. La varianza del estimador de Hansen-Hurwitz también puede 
ser escrita como 


2 
Varpprliy, =y S pipi (2 E 2) (4.2.12) 


U k<l 
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Prueba. Desarrollando términos, se tiene que 


2 2 
EL) - EL) 


U k<i PI 
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1 y Yk 
=> (Ea, +03 
keU Pk  Pk 
Ene) 
A Pkl — = ty 
keU Pk 


y esta última expresión coincide con la varianza del estimador de Hansen-Hurwitz 
en muestreo PPT. ] 


Sárndal, Swensson €: Wretman (1992) afirman que la primera forma que toma la 
varianza y su estimación insesgada para el estimador de Hansen-Hurwitz es fácil de 
calcular computacionalmente. Sin embargo, la expresión alternativa de la varianza 
se utilizará para desarrollos teóricos posteriores. 


Esta estrategia de muestreo es con reemplazo, y comparada con una estrategia de 
muestreo que utilice información auxiliar en la etapa de diseño con el estimador de 
Horvitz-Thompson es un poco menos eficiente. Sin embargo, en la práctica es más 
utilizada porque los cálculos computacionales son fáciles de realizar y es preferida 
porque con un número grande de elementos incluidos en la muestra, el cálculo de 
la varianza estimada del estimador de Horvitz-Thompson se hace inapropiado por 
la gran cantidad de productos cruzados. 


La mayor pertinencia de esta estrategia está principalmente en la estimación de 
totales, como se verá más adelante surgen complicaciones, con respecto a la in- 
formación auxiliar al usar un diseño de muestreo con reemplazo proporcional al 
tamaño en la estimación de razones. En encuestas de hogares, no resulta adecuado 
utilizar este diseño de muestreo, puesto que en una población, existe un número de 
hogares homogéneos por vivienda. Por otro lado, en encuestas de negocios y em- 
presas es útil utilizar diseños proporcionales porque sí existen diferencias marcadas 
en los tamaños de las mismas; por ejemplo, en el número de empleados, el número 
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de metros cuadrados en las instalaciones, el ingreso, etc. La función de varianza 
para esta estrategia de muestreo no es monótona decreciente; por la configuración 
de la información auxiliar, la varianza puede aumentar cuando aumenta el tamaño 
de muestra. 


Ejemplo 4.2.2. Para nuestra población de ejemplo U, existen PRES = 20 
posibles muestras con reemplazo de tamaño m = 2. Utilizando la característica 
auxiliar x, realice el cálculo léxico-gráfico del estimador de Hansen-Hurwitz, com- 
pruebe el insesgamiento, calcule la varianza y el insesgamiento del estimador de la 
varianza. 


4.2.3 Eficiencia de la estrategia 


La regla de oro de una buena muestra reza que para que la inferencia basada en 
el diseño de muestreo arroje estimaciones que sean (abusando del lenguaje) de 
varianza mínima e insesgadas, las probabilidades de inclusión (o selección, según 
sea el caso) que arroje el diseño de muestreo utilizado deben ser directamente pro- 
porcionales a los valores que toma la característica de interés en la población. Raj 
(1954) demuestra el siguiente resultado que conduce condiciona el comportamiento 
estructural de la información auxiliar que debe cumplir dos condiciones para que 
la eficiencia de la estrategia PP'T sea mayor que la del diseño aleatorio simple con 
reemplazo. 


Resultado 4.2.7. La resta de la varianza de la estrategia aleatoria simple con 
reemplazo con la varianza de la estrategia PPT' da como resultado la siguiente 
expresión: 


, Ñ N? y? 
Varmras[typ) — Varprrítyp)= y Low (a 2) (4.2.13) 


Prueba. Utilizando la expresión general de la varianza (2.2.36) bajo cualquier 
diseño de muestreo con reemplazo se tiene que 


VarmraAs (EN A Varppr(typ) al 


La última igualdad se tiene puesto que 


138 4. Muestreo con probabilidades proporcionales 


El anterior resultado indica que para que la estrategia de muestreo PPT sea más 


eficiente en términos de varianza que la estrategia de muestreo MRAS, además de 
2 


A 0 y bos 2 
que pz X tp, es necesario que la correlación entre (a, — | sea positiva. Nótese 
z 


que si la razón entre y y x es contante e igual a C, se tiene que 


2 
Cor (a 2) = Cor (e, y”) 
x z 
= Cor (x,yC) 
= Cor (x2, y) 


Por tanto, una condición necesaria para que el diseño de muestreo PPT sea más 
eficiente que el diseño de muestreo MRAS es que exista una correlación positiva 
entre la característica de interés y la información auxiliar; pero, una condición 
suficiente para la optimalidad del diseño PPT, es que la razón 7 permanezca 
constante para todo k € U. 


Además de la razón constante, Lehtonen 4 Pahkinen (2003) muestran que la efi- 
ciencia del diseño de muestreo PPT está directamente relacionada con el siguiente 
modelo de regresión 


Yx = Bo + P1Tx + Ex (4.2.14) 


que relaciona la característica de interés con la información auxiliar. Concluye que 
para que el diseño de muestreo PPT sea más eficiente que el diseño de muestreo 
MRAS, la cantidad By debe ser pequeña. Es decir, que la línea de regresión ajuste 
cerca del origen. Es más, incluso si la correlación entre la característica de interés 
y la información auxiliar fuera perfecta e igual a uno, entonces no habría ningún 
término de error, pero aun así si Pp es grande, entonces la estrategia de muestreo 
PPT podría arrojar una eficiencia menor a la del diseño de muestreo aleatorio 
simple con reemplazo. 


La eficiencia de la estrategia de muestreo, depende de dos aspectos. Primero, el 
tipo de parámetro que se quiere estimar. Lehtonen € Pahkinen (2003) afirman 
que para la estimación de totales, la estrategia de muestreo PPT', funciona mejor, 
en términos de eficiencia, que para la estimación de razones o medianas. Segundo, 
que la razón entre 1; y yz sea constante para toda la población. 


4.2. Diseño de muestreo PPT 139 


4.2.4 Marco y Lucy 


Una de las características del diseño de muestreo PP'T es el uso de información 
auxiliar en la etapa de diseño. Obviamente, la información auxiliar debe estar 
presente en el marco de muestreo. En esta sección, de Marco y Lucy, seguiremos la 
tendencia que comenzamos en el diseño de muestreo Poisson. Suponga que, para 
todas las empresas del sector industrial, el valor del ingreso en el último año fiscal 
está disponible en el marco de muestreo. 


Se quiere estimar, el total poblacional de las características de interés Empleados 
e Impuestos, para lo cual, se utilizará una estrategia de muestreo que utiliza un 
diseño de muestreo con reemplazo y probabilidades de selección de las empresas 
proporcionales al tamaño de la característica auxiliar Ingreso junto con el estima- 
dor de Hansen-Hurwitz. Como se vio antes, para que esta estrategia de muestreo 
sea Óptima con respecto a una que utilice un diseño aleatorio simple con reempla- 
zo se deben cumplir ciertas condiciones. Antes de analizarlas, veamos que, para 
este caso particular y con un tamaño de muestra igual a m = 400, el diseño de 
muestreo PP'T' es menos eficiente que el muestreo simple con reemplazo para la 
estimación del total de empleados, aunque es más eficiente que el muestreo simple 
con reemplazo para la estimación del total de impuestos declarados. Lo anterior 
se tiene utilizando la expresión (4.2.13) escrita en código de R. 


data(Lucy) 

attach (Lucy) 

N=2396 

m=400 

(N72/m)*cov(Income, (Employees”2/Income)) 
[1] -37167215 

> (N7"2/m)*cov(Income, (Taxes”2/Income)) 

[1] 3586325 


VMVvVvyvoy 


Primero, que la correlación entre Income y y2/Income sea positiva. Aunque la 
correlación entre Income y Employees e, Income y Taxes sea positiva, se debe ve- 
rificar que la correlación entre Income y la nueva variable Employees2/Income sea 
positiva, como también la correlación entre Income y Taxes2/Income. Mediante el 
uso de la función cor que R incorpora en su ambiente de trabajo, se tiene que para 
la característica de interés Empleados, la correlación es negativa, aunque casi nula. 
Mientras que para la característica de interés Impuestos, la correlación buscada 
es positiva. Esto indica que para la estimación del total de empleados, el uso de 
la información auxiliar no conlleva a ganancias significativas en la eficiencia de la 
estrategia. Por otro lado, para la estimación del total de impuestos declarados, sí 
se tiene un ganancia significativa. 


> cor(Income, (Employees”2/Income)) 
[11 -0.07727604 

> cor(Income, (Taxes”2/Income)) 

[1] 0.7092853 


Otra de las condiciones para la optimalidad de la estrategia es que el cociente entre 
Income y las características de interés Taxes y Employees sea constante para todo 
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elemento de la población. Mediante el uso de la función plot es posible tener un 
acercamiento gráfico al comportamiento de los respectivos cocientes. Nótese que 
la función abline permite trazar una línea sobre el promedio de los cocientes. 


par (mfrow=c (1,2)) 

plot (Employees/Income) 

abline (h=mean (Employees/Income), col=2) 
plot (Taxes/Income) 
abline(h=mean(Taxes/Income), col=2) 


VMVVWvyvoy 


La figura 4.3. muestra que la relación existente entre el cociente Income y Employees 
es uniforme en casi toda la población. Por supuesto, se observan algunos datos 
atípicos que están muy lejos de la línea de referencia, pero en general se observa 
un comportamiento homogéneo. Esto no ocurre con la relación existente entre el 
cociente Income e Taxes donde existe un comportamiento más disperso para to- 
dos los elementos de la población. A pesar de lo anterior, se puede afirmar que el 
comportamiento de la razón es constante. 


Un tercer argumento para el uso de la estrategia de muestreo PP'T es el examen 
del ajuste de una línea de regresión entre Employees con Income y Taxes con 
Income respectivamente. Para esto, se ajustan dos modelos. El primero dado por 


Impuestos; = Bo + BiIngreso + Ex (4.2.15) 


Para la estimación del total de la característica Impuestos y, el segundo dado por 


Empleados = Bo + BiIngreso + Ex (4.2.16) 


Para la estimación del total de la característica Empleados. Para los modelos 
anteriores, nos interesa conocer el valor que toma el intercepto de cada línea de 
regresión. Si el intercepto Py es cercano a cero, entonces se ha ganado eficiencia al 
utilizar un diseño de muestreo PP'T. R incorpora la función 1m para el ajuste de 
modelos lineales. Las estimaciones de Pp y 81 se hacen por medio del método de los 
mínimos cuadrados. Un análisis de regresión de y contra x es especificado mediante 
y í. La salida de la función 1m está dada por las estimaciones de los coeficientes 
de los modelos de regresión. Con ayuda de la función summary es posible extraer 
más información respecto a la inferencia de las estimaciones. 


Para el primer modelo, se nota que la estimación del intercepto está dada por 
-13.77 y, a juzgar por las tres estrellas, es una cantidad significativa. Aunque para 
nuestro análisis está cerca del origen, por tanto se gana en eficiencia al utilizar esta 
estrategia de estimación para el total poblacional de la característica de interés 
Impuestos. 


> M.I <- Im(Taxes” Income) 
> summary(M.1) 


Coefficients: 

Estimate Std. Error t value Pr(>]t]) 
(Intercept) -1.377e+01 2.689e-01 -51.19  <2e-16 *x** 
Income 5.954e-02 5b.295e-04 112.45 <2e-16 *x*x* 
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Taxes/Income 
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Figura 4.3: Comportamiento del cociente de la información auxiliar con las carac- 
terísticas de interés. 


El intercepto del segundo modelo ha sido estimado como 29.06, a diferencia del 
modelo anterior, no se puede decir que está cerca del origen. Además, por la 
magnitud de la escala de medición de las características, se puede decir que es una 
cantidad importante y no despreciable. 


> M.E <- Im(Employees” Income) 
> summary(M.E) 


Coefficients: 

Estimate Std. Error t value Pr(>]t]) 
(Intercept) 29.058392  0.976584 29.75  <2e-16 *x*x* 
Income 0.079525  0.001923 41.36  <2e-16 x*x*x* 


La figura 4.4. muestra la línea de regresión ajustada para los dos modelos an- 
teriores; es claro que el intercepto del modelo con impuestos declarados se puede 
considerar nulo, pero el intercepto del modelo con número de empleados es grande. 
Los tres anteriores argumentos permiten estar confiados al utilizar la estrategia de 
muestreo PPT para la estimación del total de impuestos declarados, pero se sabe 
que para la estimación del total de número de empleados, este diseño muestral no 
es más eficiente que el diseño simple con reemplazo. 


Una vez se ha decidido usar la estrategia de muestreo PPT, es necesario seleccionar 
la muestra. En este caso, se ha querido utilizar el mismo tamaño de muestra, que 
en las anteriores estrategias de muestreo. En primer lugar, se adjunta el marco 
de muestreo que no sólo contiene la ubicación e identificación sino además el va- 
lor de la información auxiliar Ingreso para cada empresa del sector industrial. La 
selección de la muestra se hace mediante el uso de la función S.PPS para la cual 
los argumentos introducido son m=400 junto con la información auxiliar Income. 
Esta función utiliza el algoritmo de selección acumulativo total. 


> pk <- Income/sum(Income) 
> sam <- S.PPS(m,Income) 


142 4. Muestreo con probabilidades proporcionales 


300 
l 


Impuestos 
150 
l 
o 
Empleados 


100 
| 
o, 


50 
l 


T T T T T T T T T T 
O 500 1000 2000 O 500 1000 2000 


Ingreso Ingreso 
Figura 4.4: Líneas de regresión. 


> muestra <- Lucylsam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone Income 
2148 AB804 c23k69 Medium D 870 
1579 ABO58 c16k94 Medium A 556 
1780 AB1218 c18k97 Medium B 580 


2152 AB808 c23k73 Medium D 986 
2008.1 AB632 c22k28 Medium D 710 


El método acumulativo total no tiene en cuenta ningún ordenamiento. En este 
caso particular, la última empresa en ser seleccionada fue la empresa con número 
de identificación AB632, aunque esta empresa ya había sido seleccionada en la 
muestra en dos ocasiones. Es decir, fue seleccionada en tres ocasiones. 


Una vez seleccionada la muestra con reemplazo, se utiliza la función E.PPS del pa- 
quete TeachingSampling cuyos argumentos son la(s) característica(s) de interés y 
un vector de probabilidades de selección pk. Por supuesto, el vector de probabili- 
dades de selección en la población está dado por pk <- Income/sum(Income). Sin 
embargo, en la función E.PPS, el vector de probabilidades debe corresponder a las 
probabilidades de selección de cada uno de los elementos elegidos en la muestra. 
En este caso la longitud del vector pk.s es de m=400. 


> pk.s <- pk[sam] 
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> estima <- data.frame(Income, Employees, Taxes) 


> E.PPS(estima,pk.s) 


Income Employees Taxes 
Total estimado 1.035217e+06 1.489366e+05 2.860961e+04 
Varianza 4.643047e-27 4.859960e+03 4.970087e+02 


coeficiente de variación 6.582186e-18 4.680745e-02 7.792379e-02 


Los resultados de aplicar la estrategia de muestreo son muy favorables. Nótese, 
que a diferencia de la estrategia de muestreo Poisson, el total poblacional de la 
característica auxiliar ingreso, es estimada exactamente con varianza casi nula. 
El total poblacional de las características de interés Empleados e Impuestos tie- 
nen coeficientes de variación menores a 1%. La tabla 4.2 muestra los resultados 
obtenidos en este ejercicio particular. 


Tabla, 4.2: Muestreo PPT: estimación de los totales de las características de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1035217 0.000 0.000 
Empleados 151950 148936 0.004 -1.98 
Impuestos 28654 28609 0.008 -0.16 


Véase que también es posible estimar el tamaño de la población. Es decir, el 
número total de empresas que pertenecen al sector industrial. Con la configuración 
de las probabilidades de inclusión, lo único que se debe hacer es asignar un vector 
de unos, de tamaño m=400 para obtener la estimación. En este caso, está dada 
por Ñ = 2272. Siendo que en la realidad el tamaño de la población en el sector 
industrial es de N = 2396. 


> E.PPS(rep(1,times=400),pk.s) 


y 
Total estimado 2.271888e+03 
Varianza 1.810680e+00 


coeficiente de variación 5b.922894e-02 


Asimismo, una estrategia alternativa es utilizar un diseño de muestreo con reem- 
plazo y probabilidad de selección proporcional al tamaño junto con el estimador 
de Horvitz-Thompson, el cual es también insesgado. Sárndal, Swensson 4 Wret- 
man (1992) se preguntan cuál es el mejor estimador y llegan a la conclusión que 
dependiendo de la configuración de los valores de las características de interés y de 
información auxiliar un estimador tendrá menor varianza que el otro. Por tanto, 
no es posible generalizar. De lo que sí se puede estar seguro, es de la simplicidad, 
en materia de cálculos del estimador de Horvitz-Thompson. En la práctica, este es 
un argumento muy fuerte que incentiva el uso del estimador de Hansen-Hurwitz. 


Utilizando el resultado 4.2.3., es posible estimar los parámetros de interés mediante 
el uso del estimador de Horvitz-T'hompson. Para esto, se calculan las probabilida- 
des inclusión. Nótese que la suma de éstas es de 358. Se extraen las probabilidades 
de inclusión de los elementos en la muestra y se utiliza la forma genérica del 
estimador de Horvitz-T'hompson. 
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> pik <- 1-(1-pk)”400 
> sum(pik) 
[1] 358.1504 
> pik.s <- pik[sam] 
> sum(1/pik.s) 
[1] 2708.389 
> colSums (estima/pik.s) 
Income BEmployees Taxes 
1157132.18 166105.50 32318.71 


Las estimaciones resultantes no son mejores, en el sentido práctico, a las obtenidas 
mediante el uso del estimador de Hansen-Hurwitz. Ahora, la estimación de la va- 
rianza supondría un esfuerzo computacional demasiado grande. 
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Como se vio en la sección anterior, utilizar un esquema de muestreo con probabili- 
dades proporcionales a alguna característica de información auxiliar puede resultar 
en ganancia de precisión. Sin embargo, utilizar una estrategia de muestreo que con- 
temple un diseño de muestreo con reemplazo es menos eficiente que implementar 
una estrategia de muestreo que contemple un diseño de muestreo sin reemplazo y 
de tamaño muestral fijo. 


En la sección anterior, se utilizó un diseño de muestreo con probabilidades propor- 
cionales, con reemplazo y, sin embargo, arrojó muy buenos resultados en términos 
de eficiencia comparado con los diseños de muestreo de probabilidades simples. Es- 
ta sección se concentra en la implementación de diseños de muestreo con probabili- 
dades de inclusión proporcionales a una característica de interés y cuya estructura 
general sea sin reemplazo. De esta forma, es posible aumentar dramáticamente la 
eficiencia de la estrategia que involucra al estimador de Horvitz-Thompson. 


Lohr (2000) afirma que el muestreo de probabilidades simples, proporciona es- 
quemas que, frecuentemente, son fáciles de explicar y diseñar. Sin embargo, estos 
esquemas no siempre pueden ser realizados puesto que las probabilidades simples 
no siempre reflejan el comportamiento de la característica de interés en la pobla- 
ción. 

Este diseño de muestreo induce probabilidades de inclusión proporcionales al ta- 
maño de una característica de información auxiliad!] De esta manera, se supone 
que el marco de muestreo tiene la bondad de poseer información auxiliar de tipo 
continuo y positiva disponible para todo elemento perteneciente a la población 
finita. Asimismo, el diseño de muestreo TPT]*| de tamaño de muestra fijo e igual 
a N, se basa en la construcción de probabilidades de inclusión que obedezcan la 
siguiente relación: 


Tk = == 0<Tp<l (4.3.1) 


1El requisito indispensable de la información auxiliar es que sea aproximadamente proporcio- 
nal a la característica de interés. 

2Nótese que la sigla rPT se refiere a los diseños de muestreo que inducen probabilidades de 
inclusión proporcionales a una característica de información auxiliar. 
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Además se busca que: 


e El algoritmo de selección de muestras bajo este diseño sea de fácil imple- 
mentación computacional. 


e Las probabilidades de inclusión de segundo orden sean positivas, mx, > 0. De 
lo contrario el estimador de la varianza podría ser sesgado. 


e El cálculo de estas probabilidades de inclusión de segundo orden, Tk, sea 
sencillo. 


e Az <0 Vk HA l para que la estimación de la varianza no sea negativa. 


Este diseño de muestreo se puede considerar como una generalización de la mayoría 
de diseños de muestreo sin reemplazo. Por ejemplo: si la característica de informa- 
ción auxiliar es constante e igual a C, entonces para un tamaño de muestra fijo, 
las probabilidades de inclusión de primer orden estarían dadas por: 


NT 
Tk = E 
nO  n 
NC N 


Con lo que se tiene un diseño de muestreo caracterizado por probabilidades simples. 
En ciertas ocasiones, cuando las población tiene un comportamiento muy variable, 
irregular y sesgado, algunas de las pz inducidas por la expresión (4.3.1) pueden ser 
mayores a uno para ciertos elementos. En tal caso, estos elementos son incluidos 
en todas las posibles muestras y toman el nombre de elementos de inclusión 
forzosa. Sin embargo, para calcular la probabilidad de inclusión de los elementos 
restantes, se debe excluir estos elementos de inclusión forzosa y volver a calcular 
las probabilidades de inclusión mediante una reformulación de la expresión (4.3.1) 
dada por 


METIA den td er (4.3.2) 


Tk = 
rev» Tk 


donde n* corresponde al número de elementos de inclusión forzosa y U* la pobla- 
ción finita excluyendo a estos elementos de inclusión forzosa. Al final del proceso, 
deberían existir dos grupos de elementos: 


1. Un grupo de elementos de inclusión forzosa con probabilidades de inclusión 
iguales a uno. 


2. Un grupo de elementos con probabilidades de inclusión 0 < mx < 1 y pro- 
porcionales a 27. 


Por tanto, el problema se reduce a la selección de n unidades con probabilidades 
de inclusión tales que 
Nm 


keU 


El siguiente resultado da cuenta de la forma estructural que toma el estimador de 
Horvitz-Thompson, de su varianza y de su varianza estimada. 
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Resultado 4.3.1. Para el diseño de muestreo TPT, el estimador de Horvitz- 
Thompson, su varianza y su varianza estimada están dados por: 


2 Uk 
yn = No a (4.3.3) 
S 


. 1 e 
Varaprlty) = a NY Ay (2 == 2) (4.3.4) 
U 


Tkl 


ae . 1 Ar (Ye YN 
Varaprity) = 7 ) ) ==» (E ee e (4.3.5) 
Ss 


Resultado 4.3.2. Para el diseño de muestreo TPT, el estimador de Horvitz- 
Thompson del total de la característica de información auxiliar reproduce ese total 
con varianza nula 


Prueba. De la definición del estimador de Horvitz-Thompson, y de la expresión 
(4.3.1),se tiene que 


Por otro lado, 


a 1 z a? 
Varapr(ta) = 29 A Ari (2 sE 2) (4.3.6) 
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con lo cual se concluye la demostración ] 


Ejemplo 4.3.1. Suponga que para la población de ejemplo U se tiene conoci- 
miento de cada valor de la siguiente característica de información auxiliar correla- 
cionada con la característica de interés. Por tanto, un primer paso para el cálculo 
de las probabilidades de inclusión es aplicar la expresión (4.3.1). 


>n< 4 

> x < c(52,60,75,100,50) 

> pik <- n*x/sum(x) 

> pix 

[1] 0.6172107 0.7121662 0.8902077 1.1869436 0.5934718 


Nótese que el cuarto elemento de la población, correspondiente a Sharon es un 
elemento de inclusión forzosa; es decir que está presente en todas las posibles 
muestras. El siguiente paso es separar a Sharon de los restantes elementos y pro- 
seguir con el cálculo de las probabilidades de inclusión inducidas por la expresión 
(4.3.2) 
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>n<3 

> x <- c(52,60,75,50) 

> pik <- n*x/sum(x) 

> pix 

[1] 0.6582278 0.7594937 0.9493671 0.6329114 


Por tanto el vector de probabilidades de inclusión para toda la población U está 
dado por 


TT = (0.6582278, 0.7594937, 0.9493671, 1.0000, 0.6329114)' 
A SC A A, 
Yves Ken Erik Sharon Leslie 


4.4 Selección de muestras 7PT 


Existen varios métodos de selección de muestras TPT. Sin embargo, todos ellos 
están basados en una teoría fuerte y complicada y, en algunas ocasiones, son muy 
difíciles de implementar en la práctica. A continuación, se exponen dos métodos 
de selección de muestras de tamaño n = 1 y n = 2. Sárndal, Swensson 4 Wret- 
man (1992) comentan que a simple vista parecería irreal considerar tamaños de 
muestra tan pequeños. Sin embargo, en muestreo estratificado y muestreo para 
conglomerados (ver siguientes capítulos) tiene sentido seleccionar solamente una o 
dos unidades primarias de muestreo. 


Tamaño de muestra n = 1 


Para n= 1 se utiliza el método acumulativo total, que consiste en: 


1. Definir To =0 y Ti =Tx-1 + 2x (k € U). 


2. Calcular un número aleatorio e con distribución uniforme en el intervalo 
[0, 1]. 


3. Si Tp-1 < e Ty < Ty, el elemento k-ésimo se selecciona. 


Nótese que este algoritmo de selección garantiza que el diseño de muestreo es un 
autentico TP'T puesto que 


Th — Th- 
Tx = Pr(k € S) = Pr(Tp-1 <eTy < Tp) = 722 = 
N z 


Por supuesto, no es posible obtener un estimador insesgado de la varianza del 
estimador de Horvitz-Thompson puesto que la muestra sólo considera la inclusión 
de un elemento de la población finita. 
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Tamaño de muestra n = 2 


En este escenario es preciso garantizar que las probabilidades de inclusión de pri- 
mer orden estén dadas por 


para todo elemento de la población finita. En este caso, los dos elementos de la 
muestra son seleccionados uno por uno. Para tal fin, se debe seguir el siguiente 
algoritmo (Brewer 1963, Brewer 1975) que utiliza el método acumulativo total en 
cada una de las dos selecciones, así: 


1. En la primera extracción, el elemento k-ésimo es seleccionado con probabili- 
dad 


Ck 
Pk == —— 
re Ck 


donde 


Tk (Ty = Lp) 


A) 


2. En la segunda extracción, el elemento seleccionado en el paso anterior, diga- 
mos el elemento k*, es retirado del sorteo. El segundo elemento es seleccio- 
nado con probabilidad 


TI] 
Pike" = m4 
TN — Xp. 


Resultado 4.4.1. Bajo el esquema de selección de Brewer las probabilidades de 
inclusión de primer orden satisfacen la siguiente relación 


Las probabilidades de inclusión de segundo orden están dadas por 


2147] Ti — Tk — El 
T = 
pe TNO rev 1) (Tn — 22) (Tn — 2x1) 


Prueba. La probabilidad de inclusión de primer orden del k-ésimo elemento está 
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dada por 
Tx =Pr(k e S) 
= Pr(k sea seleccionado en la primera extracción) 
+ Pr(k sea seleccionado en la segunda extracción) 
= Pk +Pr)j y Dj 
jeu 
GA 
_Tk(Tn — 2) /Tn (Tn — 255) 
3 D 
7 ej (Un — NON — 21;) - EE. 
jeU ya 
GA 
o 2 /TN Ti — Tk y 25 
D Ty = 22 y ¿EU Ty E 225 
4h 
_ Ex/Tn Tn 211 + AS 25 
D Ty — 2%x Ty — 22 =U Ty — 22) 
T, T 2 
EEN E A 
D jeu Ti EN 22; D Ty 
Donde 
D= Tk(Tn — 21) 
keU Tr(Ty == 21) 
en 1 y a(2Ty == 21) 
2 keU Tr(Ty = 211) 
2 keU Tw — 21 k 


La última relación se tiene puesto que 


a 
keU Tn(Ty — 22;) keU Ty — 22% 


Análogamente para las probabilidades de inclusión de segundo orden. n 


Resultado 4.4.2. Bajo muestreo TPT' con el algoritmo de selección de Brewer, 
se tiene que. 


1. Varapr(ty) es menor que Varppr (ty p). 
2. La estimación de la varianza es siempre positiva. 


Lohr (2000) afirma que generalmente el muestreo con reemplazo es menos efi- 
ciente que el muestreo sin reemplazo. Sin embargo, el muestreo con reemplazo se 
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utiliza con mucha más frecuencia debido a la facilidad que brinda para elegir y 
analizar las muestras. Se ha investigado mucho acerca del muestreo con probabili- 
dades proporcionales sin reemplazo; hay que notar que la teoría de éstos tipos de 
muestreo es mucho más complicada. Existen varios algoritmos que permiten la se- 
lección de muestras de tamaño n > 2 con probabilidades de inclusión desiguales; en 
particular, con probabilidades proporcionales a una característica de información 
auxilia] En esta sección, revisaremos algunos de estos esquemas que permiten la 
selección de muestras para tamaños de muestra fijos y mayores que dos. 


4.4.1 Método de Sunter 


En Sunter (1977) y en Sunter (1986) se propune un procedimiento secuencial que, 
en general, no es aplicable a cualquier vector de probabilidades de inclusión de 
primer orden. Este algoritmo de muestreo sólo funciona cuando los elementos de 
la población son ordenados descendentemente y cuando los elementos con valores 
más pequeños comparten las mismas probabilidades de inclusión. Este método, 
que en realidad es una modificación del algoritmo de Fan-Muller-Rezucha para la 
selección de muestras simples, asume la existencia de una variable auxiliar que 
induce probabilidades de inclusión de primer orden dadas por la expresión (4.3.1) 
y consiste en: 


1. Ordenar descendentemente la población de acuerdo con los valores que toma 
la característica de información auxiliar xz. 
2. Realizar €x - U(0, 1). 


3. Para k = 1, el primer elemento de la lista ordenada es incluido en la muestra 
sí y solamente sí €; < 7. 


4. Para k > 2, el k-ésimo elemento de la lista ordenada es incluido en la muestra 
sí y solamente sí 


donde nx-1 representa el número de elementos que ya han sido seleccionados 
al final del paso k— 1. 


Resultado 4.4.3. Bajo el esquema de selección de Sunter, las probabilidades de 
inclusión de primer orden están dadas por 


IA 
Tw 1 ? E 

Tk = a 
e sik=k*,...,N 


donde k* = mín[koy, N — n + 1) con ko equivalente al menor k para el cual se 
cumple que nxy/Ty > 1, Tr = a I5 y 


3El lector interesado en conocer aún más acerca de estos algoritmos de selección puede referirse 
a los siguientes tres libros: Brewer éz Hanif (1983), Hájek (1981) y Tillé (2006)). 
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a Tk 

Pp = —___——— 
"O N-k+1 

Por otra parte, se cumple que para todo k Xl, Try > 0 y Ag, <0. 


Con el anterior resultado se establece que este método de selección de muestras no 
induce probabilidades de inclusión estrictamente proporcionales a la característica 
de información auxiliar. Sárndal, Swensson éz Wretman (1992) afirman que relajar 
un poco este supuesto es un precio menor que debe pagarse para que el esquema 
de selección sea ejecutable en la práctica. 


Ejemplo 4.4.1. Volviendo con la población ejemplo U. Suponga que se tiene 
acceso a los valores de la característica de información auxiliar x para todos los 
elementos de la población. Es posible seleccionar una muestra TP'T' de tamaño 
n = 3 con el método de Sunter. Para tal fin, es necesario recurrir a la función 
S.piPS del paquete TeachingSampling. 


Esta función consta de tres argumentos: el primero, x, hace referencia al vector de 
información auxiliar continua para toda la población. El segundo, n, determina el 
tamaño de la muestra. Con estos dos argumentos, la función S.piPS construye las 
probabilidades de inclusión proporcionales a la característica de información auxi- 
liar. El tercer argumento, e, que es opcional, corresponde a un vector de números 
aleatorios con el que se procede a ejecutar el esquema de selección de Sunter. 


> U< c("Yves", "Ken", "Erik", "Sharon", "Leslie") 
> N <- length(U) 

>n<3 

> x <- c(52,60,75,100,50) 

> pi <- (n*x)/sum(x) 

> pi 

[1] 0.46 0.53 0.67 0.90 0.44 

> sum(pi) 

[11 3 


> sam <- S.piPS(n,x,e=runif (N)) 
> U[sam] 

[1] "Sharon" "Erik" "Ken" 

> x[sam] 

[1] 100 75 60 


La función S.piPS devuelve un conjunto de índices (distintos por definición) que 
aplicados a los rótulos poblacionales proporcionan la muestra realizada o seleccio- 
nada. Para el anterior ejercicio particular, la muestra realizada estuvo conformada 
por Sharon, Erik y Ken. Es importante recalcar que esta función no necesita 
de ningún ordenamiento previo sobre la característica de información auxiliar; en 
otras palabras, los resultados serán idénticos si se realiza un ordenamiento previo 
o si no se realiza tal ordenamiento. 
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4.4.2 Método de escisión 


Desde la publicación de Brewer € Hanif (1983) se han propuesto numerosas técni- 
cas de muestreo con probabilidades de inclusión desiguales. Sin embargo, en el 
artículo de Deville €z Tillé (1998), se habla de ocho nuevos métodos; entre ellos, 
el método de escisión. Este método es considerado como un nuevo enfoque que 
presenta de manera más simple los restantes métodos de selección de muestras 
con probabilidades desiguales. Tillé (2006) comenta que el método de escisión es 
un medio para integrar la presentación de los demás métodos y para hacerlos 
comparables. 


En palabras de uno de los autores (Tillé 2006), el método de escisión propuesto 
por Deville ¿z Tillé (1998) es: 


... un marco de referencia de los métodos de muestreo sin reemplazo, 
con tamaño muestral fijo y con probabilidades desiguales, en particular 
con probabilidades proporcionales al tamaño de una característica de 
información auxiliar. 


La idea básica del método consiste en dividir el vector de probabilidades 
de inclusión en dos o más vectores nuevos. A continuación, uno de estos 
vectores se selecciona aleatoriamente, de tal manera que el promedio de 
los vectores de como resultado el vector de probabilidades de inclusión. 
Este simple paso se repite hasta que se obtenga una muestra. 


Con el planteamiento anterior, el método de escisión se puede conside- 
rar como un algoritmo de Martingalas que incluye todos los procedi- 
mientos de selección individual y secuencial y permite derivar un gran 
número de algoritmos de muestreo de probabilidades desiguales. Más 
aun, muchos procedimiento bien conocidos de probabilidades desigua- 
les pueden ser formulados bajo la forma de una partición del vector 
de probabilidades de inclusión. Por tanto, la presentación puede ser 
estandarizada, lo cual permite una comparación más simple de proce- 
dimientos. 


Escisión en dos partes 
Este método consiste en seleccionar una muestra, de tamaño n(S) = n, de pro- 


babilidades desiguales mediante la partición de la probabilidad de inclusión del 
k-ésimo elemento en dos partes Tf y Tr), tal que 


Ti= Am + (1 AJrh (4.4.1) 


De tal forma que 0 < r2 < y 0< m? < y que 


3 TR = ER mTm=n (4.4.2) 


keU keU 


Donde 0 < A < 1. La esencia del método es la selección de mn elementos con pro- 
babilidades desiguales mediante la transformación iterativa del vector de probabi- 
lidades de inclusión. Si la escisión es tal que uno o varios de los rf y de los me son 
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equivalentes a cero o uno, entonces el problema de muestreo se verá reducido en el 
siguiente paso. De hecho, un vez que un componente del vector de probabilidades 
de inclusión converja a cero o uno, es deberá permanecer en este estado hasta que 
se seleccione una muestrd!] En general, el algoritmo de muestreo de este esquema 
es el siguiente: 


1. Definir (0) = 7. 


2. Construir un par de vectores rr%(t) y r*(t) y definir un número A(t) € (0,1) 
tales que 
T(t) =A(1)7 (€) + (1 A(t))m (t) (4.4.3) 


3. Definir para el siguiente paso al vector de probabilidades de inclusión de tal 
forma que 


T“(t) con probabilidad A(t) 


e (4.4.4) 
Tr*(t) con probabilidad 1— A(t) 


s+)=| 


4. Iterar hasta obtener convergencia; es decir, hasta que todas las entradas del 
vector de probabilidades de inclusión sean cero o uno en ambas particiones. 
De esta forma, para cada tiempo t, existe una posible muestra correspon- 
diente a S = 7r(t). 


Esquema de soporte mínimo 


Definición 4.4.1. Si para un vector fijo de probabilidades de inclusión es posible 
plantear un diseño de muestreo cuyo soporte contenga a lo más N muestras s, 
tales que p(s) > 0. En tal caso, el diseño de muestreo se dice de soporte mínimo. 


A continuación se presenta el esquema de soporte mínimo que permite seleccionar 
una muestra en a lo más N pasos. 


Paso 1 Ordenar el vector de probabilidades de inclusión en orden ascendente, de- 
notado como (Ta, Mares , T(N)) 


Paso 2 (Primera iteración, t = 1) Calcular 
A(1) == mín(1 > T(N—nm)> T(N—n+1)) 


Luego, computar las siguientes particiones del vector de probabilidades de 


inclusión 
0 sik<N-—n 
e (1)= - 4.4.5 
TD) o a 
meo Sk<N-=n 
Tp (1) = (4.4.6) 
mo sik>N—=n 


4Una muestra es seleccionada cuando todas las entradas del vector de probabilidades de 
inclusión se conviertan en ceros o unos. 
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Paso 3 (t-ésima iteración, t > 2) Definir los siguientes conjuntos 
A(t) = (KJ0 < my, (t—1) < 1) 
B(t) = (k)m(,) (t-1) =1) 


y las siguientes cantidades: 


N*(t) =HA(1) 
n*(t) = B(t) 


Luego, para los elementos k € A(t) calcular 


A(t) = mín(1 — Ty«- (9) (E D Tn o—on + (=D) 


A continuación, para los elementos k € A(t) computar las siguientes par- 
ticiones del vector de probabilidades de inclusión 


a 0 sik< N*(t) — n*(t) 
Ty) (t) = E a (4.4.7) 
1 sik>N*(E)-n*(t) 
Ti (t—1) le 7 
j O] si k < N*(t) —- n*(t) 
Tp) (t) = (4.4.8) 
o si k> NU) 00) 


Paso 4 Tterar hasta obtener convergencia; es decir, hasta que T(y) (4) E (0,1). 


Ejemplo 4.4.2. En este apartado se muestra paso a paso cómo trabaja el algo- 
ritmo de mínimo soporte basado en el método de escisión. Volvemos entonces a 
nuestra población ejemplo 


U = (Yves, Ken, Erik, Sharon, Leslie) 


El cálculo de las probabilidades de inclusión se hace con respecto a la expresión 
(4.3.1) donde la característica de información auxiliar corresponde a 


x = (52,60,75, 100, 50) 


Por tanto, el vector de probabilidades de inclusión está dado por 


rr = (0.46,0.53, 0.67, 0.90, 0.44) 


El método exige el ordenamiento del vector de probabilidades de inclusión en orden 
ascendente. Luego de esto, se tiene que el procedimiento converge en cuatro etapas. 
La tabla 4.3 muestra la convergencia del método y todas las posibles muestras que 
surgen del diseño muestral con soporte mínimo. Los cálculos en cada etapa se dan 
a continuación: 
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Tabla 4.3: Diseño de mínimo soporte para la población U. 


Etapa 1 Etapa 2 Etapa 3 Etapa 4 
A(1) =0.53 | AQ)=0.06 | A(3) =0.02 | A(4) = 0.78 

k Tk | TE me TE TE Tk Tb TE Tk 
Leslie 0.44 | 0 0.94 0 1 1 1 1 1 
Yves 0.46 | 0 0.98 1 0.98 0 1 1 1 
Ken 0.53 | 1 0 0 0 0 0 0 0 
Erik 0.67 | 1 0.29 1 0.24 1 0.22 0 1 
Sharon 0.90 | 1 0.79 1 0.78 1 0.78 1 0 


Etapa 1 N=5,n=3, A = mín(1 — 72), 7(3)) = 0.53 

4, n*(2) =3, (2) = mín(1 — (1, (1), 7(2, (1)) = 0.06 
3, n*(3) =2, A(3) = mín(1 — 7(1,(2), 7(2)(2)) = 0.02 
2, n*(4) =1, A(4) = mín(1 — 7(1)(3), 7(2,(3)) = 0.78 


Jl 


Etapa 2 N*(2) 
Etapa 3 N*(3) 


Etapa 4 N*(4) 


Por tanto, el diseño muestral de mínimo soporte está dado por 


0.53 
0.0282 = (1 — 0.53) x 0.06 


si s = (Ken, Erik, Sharon) 
si s = [ Yves, Erik, Sharon) 


( 
p(s) = 4 0.0088 = (1 — 0.53 — 0.0282) x 0.02 si s = (Leslie, Erik, Sharonj 
0.3377 = (1 — 0.53 — 0.0282 — 0.008) x 0.78 si s = (Leslie, Yves, Sharon) 
0.0953 = (1 — 0.53 — 0.0282 — 0.008 — 0.3377) si s = (Leslie, Yves, Erik) 


4.4.3 Estimación de la varianza 


Existe un número muy grande de diseños y algoritmos de muestreo que trabajan 
bajo el supuesto de probabilidades de inclusión desiguales. En el caso particular del 
diseño de muestreo sin reemplazo y proporcional al tamaño de una característica 
de interés, las probabilidades de inclusión siguen el comportamiento dado por la 
expresión (4.3.1). Cada uno de estos métodos de muestreo inducen probabilidades 
de inclusión de primer y segundo orden. Las probabilidades de inclusión de primer 
orden son esenciales al momento de completar la estrategia de muestreo con el 
estimador de Horvitz-Thompson. Sin embargo, las probabilidades de inclusión de 
segundo orden, aunque servirían teóricamente para calcular y estimar la varianza 
del estimador de Horvitz-Thompson, son ineficientes pues cuando el tamaño de 
muestra crece, su cálculo se vuelve una total aventura, en muchos casos imposible 
de finiquitar. 


Al respecto Tillé (2006) comenta, en el prefacio de su libro de algoritmos de mues- 
treo, que «tiene la convicción de que las probabilidades de inclusión de segundo 
orden no son usadas para nada> y añade que «en la práctica el uso de las pro- 
babilidades de inclusión de segundo orden es muchas veces irreal porque son muy 
difíciles de calcular computacionalmente y n? términos deben ser sumados para 
calcular la estimación>. 


Para evitar el cálculo y estimación de la varianza del estimador de Horvitz-Thompson 
con dobles sumas, Deville dz Tillé (2005) proponen una aproximación de la varian- 
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zad”] y su respectiva estimación para un diseño exponencial?] dada por el siguiente 
resultado 


Resultado 4.4.4. Para la familia de diseños exponenciales, la aproximación de la 
varianza del estimador de Horvitz-T'hompson está dada por 


A Dx a 
Var(t,n) = Y a (Un = yy? (4.4.9) 
keU "Uk 
donde bl 
* leU PIYIL/ Ti 
yo AAA (4.4.10) 
' teu di 
Hájek (1981) ha propuesto la siguiente escogencia de by 
NT a = Tk) 
= —_—_— 4.4.11 
bx (N=1) ( ) 
Un estimador de la anterior aproximación de la varianza está dada por 
AAA Ck pa 
Var(tyr) = y 3 (Y y (4.4.12) 
kes "k 
donde ) 
0 = m, Tues U1/Ta (4.4.13) 
les 
Deville (1993) ha propuesto la siguiente escogencia de Cx 
tia => (4.4.14) 


(n — 1) 


Ejemplo 4.4.3. Para nuestra población de ejemplo U, existen (1) = 10 posibles 
muestras TPT de tamaño n = 3. Utilizando las probabilidades de inclusión del 
ejemplo 4.4.1, realice el cálculo léxico-gráfico del estimador de Horvitz-Thompson, 
calcule la aproximación de la varianza dada por la expresión (4.4.9) y para cada 
muestra estime esta varianza usando la expresión (4.4.12) y compruebe su inses- 
gamiento. 


Acerca del muestreo 7PT 


En general, la familia de diseños de muestreo rP'T son utilizados cuando el compor- 
tamiento de la característica de interés en la población finita es bastante asimétrico. 
Para la estimación de totales, este diseño es más eficiente, en términos de reduc- 
ción de la varianza. Sin embargo, cuando se quiere estimar otro tipo de parámetros 
poblacionales, como razones o medianas, los diseños de muestreo proporcionales 
al tamaño no son muy apetecidos, pues es difícil encontrar una característica de 
información auxiliar bien correlacionada con la razón entre las dos características 
de interés. En resumen, se tiene que: 


5Existe mucha literatura escrita alrededor del tema de aproximaciones y simplificaciones de 
la varianza del estimador de Horvitz-Thompson. Para una mejor comprensión del tema Matei «z 
Tille (2005) han escrito un excelente artículo de revisión. 

SLos diseños de muestreo exponenciales son una gran familia que incluyen diseños tales co- 
mo muestreo aleatorio simple, muestreo multinomial, muestreo de probabilidades desiguales con 
reemplazo y algunos diseños de probabilidades desiguales sin reemplazo. Para más información 
acerca de los diseños de muestreo exponenciales el lector deberá remitirse a Tillé (2006). 
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e Se utiliza esencialmente para la estimación de totales poblacionales. 


e En encuestas de hogares no vale la pena utilizar este diseño pues, en general, 
en Cada vivienda hay una misma cantidad de hogares. 


e En encuestas de negocios es bueno utilizar diseños proporcionales porque sí 
existen diferencias en los tamaños considerados. 


e Debido a que este diseño de muestreo involucra información auxiliar, enton- 
ces es más eficiente que el diseño de muestreo aleatorio simple. 


e Un defecto de este diseño de muestreo es que su varianza no es una función 
monótona decreciente. Debido a la configuración particular de la información, 
la varianza puede crecer si se aumenta el tamaño de muestra. 


4.4.4 Marco y Lucy 


En este apartado de Marco y Lucy suponga que se tienen las mismas condicio- 
nes que en el apartado de Marco y Lucy del diseño de muestreo PPT (ver la 
sección 4.2.4). Siendo así, el marco de muestreo permite conocer los valores po- 
blacionales de una característica de información auxiliar. En este caso ésta es la 
variable Income. Dadas las bondades del marco de muestreo, se quiere seleccio- 
nar una muestra de tamaño n=400 mediante un diseño de muestreo sin reemplazo 
que induzca probabilidades de inclusión proporcionales a esta característica de 
información auxiliar. 


La selección de la muestra se realiza haciendo uso de la función S.piPS del paquete 
TeachingSampling para la cual los argumentos introducidos son: el vector de va- 
lores poblacionales de la característica de información auxiliar Income y el tamaño 
de la muestra sin reemplazo n=400. Nótese que esta función utiliza el algoritmo de 
selección de Sunter. 


> data(Lucy) 
> attach(Lucy) 
> N <- dim(Lucy) [1] 
> n <- 400 
> pik <- n*Income/sum(Income) 
> sam <- S.piPS(n, Income) 
> muestra <- Lucylsam,] 
> attach(muestra) 
> muestra 

Identificador Ubicación Level Zona Income 
2338 AB1132 c25k61 Grande A 2510 
2370 AB749 c25k93 Grande D 1911 
2329 AB1096 c25k52 Grande A 1620 
1367 AB388 c14k80 Pequeño C 96 
284 AB148 c3k86 Pequeño B 91 


755 AB191 c8k62 Pequeño C 76 
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El resultado de la función S.piPS es una muestra ordenada de forma descendente 
por los valores de la característica de información auxiliar. El siguiente paso es 
recolectar la información de las características de interés Employees e Taxes para 
los elementos incluidos en la muestra realizada. 


Después de recolectar la información, es necesario estimar los totales de las ca- 
racterísticas de interés. En esta etapa se utiliza la función E.piPS del paquete 
TeachingSampling cuyos argumentos son: estima, correspondiente a la lista que 
contiene los valores observados en la muestra para cada una de las característi- 
cas de interés y pik.s, correspondiente al vector de probabilidades de inclusión 
(proporcionales a la característica de información auxiliar) de los elementos en la 
muestra. 


> pik.s <- pik[sam] 
> estima <- data.frame(Income, Employees, Taxes) 


> E.piPS(estima, pik.s) 


Income Employees Taxes 
Total estimado 1.035217e+06 1.515538e+05 2.821118e+04 
Varianza 3.559408e-23 2.288151e+07 4.403830e+05 


coeficiente de variación 5.763117e-16 3.156279e+00 2.352307e+00 


Los resultados para este ejercicio particular son excelentes. Nótese que los esti- 
mativos de la varianza no son exactos, pues están dados por el resultado 4.4.2, 
aunque sí aproximados. Por otra parte, el resultado 4.3.4 asegura que éstos serían 
menores a los arrojados por la estrategia de muestreo que utiliza un diseno PPT 
con reemplazo y el estimador de Hansen-Hurwitz. Por supuesto, este diseño de 
muestreo es más eficiente que el de Poisson, no es de extrañar que los resultados 
para la variable Ingreso sean tan exactos. Recuérdese que ésta fue la variable uti- 
lizada como característica de información auxiliar. La siguiente tabla muestra los 
resultado para un ejercicio particular. Una vez más, la característica Impuestos 
tiene un menor coeficiente de variación estimado puesto que está mucho mejor 
correlacionada con la variable Ingreso. 


Véase que para obtener estos resultados, fue necesario conocer el valor de N dado 
por la longitud del vector de información auxiliar. Nótese que no siempre se puede 
asegurar el conocimiento del total poblacional. Sin embargo, aunque no se cono- 
ciera, con la función HT se hubiera llegado a los mismos resultados, en términos de 
la estimación de los totales, pero no se obtendrían los estimativos concernientes a 
la varianza, tal y como se ilustra a continuación. 


> HT(estima, pik.s) 


Income Employees Taxes 
[1,] 1035217 151553.8  28211.18 


4.5 Ejercicios 


4.1 Demuestre o refute la siguiente afirmación: «Cuando el comportamiento de 
la característica de interés es uniforme en la población es más conveniente 
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Tabla 4.4: Muestreo TP T: estimación de los totales de las características de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1035217 0.000 0.000 
Empleados 151950 151553 3.156  -0.002 
Impuestos 28654 28211 2.392  -0.015 


utilizar diseños de muestreo proporcionales al tamaño de una característica de 
información auxiliar». 


4.2 Demuestre o refute la siguiente afirmación: «En muestreo Poisson, cuando las 
probabilidades de inclusión son tales que Tr, = nyy/t, la varianza del estimador 
de Horvitz-Thompson es nula>. 


4.3 Complete el cálculo léxico-gráfico del ejemplo 4.1.2. 


4.4 Suponga una población de 10 elementos U = [fe,,...,ezyp cuyo marco de 
muestreo contiene una característica de información auxiliar dada por 


x = (62,151,76,77, 80,60, 194,78,74, 61) 


e Si se desea seleccionar una muestra sin reemplazo de tamaño esperado 
n(S) = 6, utilice la expresión (4.3.2) para construir un vector de proba- 
bilidades de inclusión proporcionales a x tales que O < mz < 1 para todo 
k € U y verifique » yy Th = 6 

e Utilice el algoritmo de la sección 4.1.1 para seleccionar una muestra Pois- 
son teniendo en cuenta que se obtuvo el siguiente conjunto de números 
aleatorios uniformes 


e = (0.858, 0.698, 0.541, 0.320, 0.965, 0.497, 0.208, 0.006, 0.340, 0.206) 


e Utilice el método de Sunter para seleccionar una muestra TPT tenien- 
do en cuenta que se obtuvo el siguiente conjunto de números aleatorios 
uniformes 


€ = (0.322, 0.542, 0.032, 0.141, 0.453, 0.668,0.174, 0.318, 0.691, 0.006) 


4.5 (Sárndal, Swensson € Wretman 1992, p. 117) Para estimar el total de la ca- 
racterística de interés y de una población de N = 284 elementos, se utilizó 
un diseño de muestreo Poisson de tamaño de muestra esperado n(S) = 10. 
Las probabilidades de inclusión fueron proporcionales a una característica de 
información auxiliar x cuyo total poblacional es t, = 8182. Luego, el algoritmo 
de selección arrojó una muestra de tamaño efectivo de 12 elementos, para las 
cuales se obtuvo la siguiente información 


e Calcule una estimación insesgada para el total poblacional de la carac- 
terística de interés, reporte el coeficiente de variación estimado y un in- 
tervalo de confianza al 95 %. 

e Calcule una estimación insesgada para la media poblacional de la ca- 
racterística de interés, reporte el coeficiente de variación estimado y un 
intervalo de confianza al 95%. 
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4.6 
4.7 


4.8 


4.9 


4.10 
4.11 


Tk Uk 

54 5246 
671 59877 
28 2208 
27 2546 
29 2903 
62 6850 
42 3773 
48 4055 
33 4014 
446 38945 
12 1162 
46 4852 


e Utilice el estimador alternativo para calcular estimaciones tanto del total 
como de la media poblacional. 


Complete el cálculo léxico-gráfico del ejemplo 4.4.3. 


Suponiendo que los datos del ejercicio 4.5 provienen de un diseño de muestreo 
TPT, calcule una estimación para el total de la característica de interés. Uti- 
lizando la aproximación de la varianza dada en (4.4.12), reporte el coeficiente 
de variación estimado y un intervalo de confianza al 95 %. 


Utilice el esquema de mínimo soporte para especificar un diseño de muestreo 
TPT de tamaño n = 3 para una población de tamaño N = 6 cuyo vector de 
probabilidades de inclusión de primer orden es 


rr = (0.07, 0.17, 0.41, 0.61, 0.83, 0.91) 


Demuestre que el procedimiento converge en cuatro pasos que inducen cinco 
muestras y calcule la probabilidad de selección de cada muestra. 


Demuestre o refute la siguiente afirmación: <En muestreo PPT es posible uti- 
lizar los estimadores de Horvitz-Thompson y de Hansen-Hurwitz, al comparar 
las dos estrategias se tiene que las dos aportan la misma precisión pero dife- 
rente confiabilidad>. 


Complete el cálculo léxico-gráfico del ejemplo 4.2.2. 


Suponga una población de 12 elementos U = ([e1,...,ez2) cuyo marco de 
muestreo contiene una característica de información auxiliar dada por 


x = (674,802,829,726,709,789,742, 791,805, 797, 771,692) 


e Si se desea seleccionar una muestra con reemplazo de tamaño m = 6, 
construya un vector de probabilidades de selección proporcionales a x 
tales que O < py < 1 para todo k € U y verifique >; pr = 6 


e Utilice el método acumulativo total para seleccionar una muestra PPT 
teniendo en cuenta que para cada una de las seis extracciones se generaron 
los siguientes números aleatorios uniformes 


e = (0.075, 0.397, 0.280, 0.407, 0.982, 0.782) 


4.5. 
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4.12 


4.13 


4.14 


4.15 


e Utilice el método de Lahiri para seleccionar una muestra PPT usando 
sus propios números aleatorios y y l en cada una de las extracciones. 


Demuestre o refute la siguiente afirmación: «Para la estimación de totales, 
el diseño PP'T es preferido sobre el diseño rP'T porque permiten agilizar los 
cálculos computacionales de varianza y coeficiente de variación>. 


Demuestre o refute la siguiente afirmación: «Para la estimación de totales, el 
diseño PPT siempre es más eficiente que el diseño de muestreo aleatorio simple 
con reemplazo>. 


Suponga una población de N = 12 elementos cuyos valores observados para 
la característica de interés son 


y = (50,53, 44, 45,53, 31,35, 45, 34, 44,52, 52) 


y los valores observados para la característica de información auxiliar son 
x = (1005, 1072, 884, 907, 1068, 625, 705, 909, 692,891, 1046, 1052) 


e Calcule la correlación entre x e y2/x 


e Realice un gráfico de dispersión para y/x y explique si se puede afirmar 
que la razón es constante para los elementos de la población. 


e Utilice el análisis de regresión simple para estimar el valor del intercepto 
y decida si este es estadísticamente diferente de cero. 


e Para un tamaño de muestra m = 6, utilice la expresión (4.2.13) y los an- 
teriores argumentos para justificar o descalificar la escogencia del diseño 
de muestreo PP'T para esta población. 


Asumiendo que los datos del ejercicio 4.5 provienen de un diseño de muestreo 
PPT, calcule la estimación de Hansen-Hurwitz para el total de la característi- 
ca de interés, reporte el coeficiente de variación estimado y un intervalo de 
confianza al 95%. También calcule la estimación de Horvitz-Thompson para 
el total de la característica de interés. 


Capítulo 5 


Muestreo estratificado 


La estratificación es una de las técnicas más difundidas y usadas en mues- 
treo puesto que tiene funcionalidades estadísticas y administrativas que la 
hacen atractiva: permite tratar con subpoblaciones, aumenta la eficiencia 
de las estimaciones y contribuye a la administración eficiente de grandes 
encuestas. 


Richard Valliant (2000) 


En algunas ocasiones, la característica de interés tiende a tomar distintos valores 
promedio con respecto a subgrupos poblacionales. De alguna manera, si la pobla- 
ción tiene un comportamiento diferente en estos subgrupos, es posible mejorar la 
precisión de las estimaciones tomando muestras independientes en cada uno de 
los subgrupos poblacionales. Lo anterior es intuitivo cuando entre los subgrupos 
existe mucha variabilidad, pero dentro de ellos la variabilidad es constante. 


En general, cuando existe en el marco de muestreo información auxiliar que permite 
la división de la población en H subgrupos con el objetivo de seleccionar una 
muestra en cada subgrupo, se dice que la estrategia de muestreo utiliza un diseño 
de muestreo estratificado y el nombre de los subgrupos, formados antes de la 
recolección de la información, se denomina estratos. Nótese la diferencia con los 
subgrupos poblacionales llamados dominios, en donde la partición de la población 
se realiza después de la recolección de la información. 


Con frecuencia, tenemos información adicional que nos ayuda a diseñar la estra- 
tegia de muestreo. Cuando esta información se refiere a la pertenencia de cada 
uno de los elementos a un subgrupo, podemos aplicar una estrategia que utilice 
un diseño de muestreo estratificado. No es solamente la disponibilidad de esta in- 
formación auxiliar la que nos lleva a utilizar un diseño de muestreo estratificado, 
además de esto: 


1. La variable de interés asume distintos valores promedio en diferentes sub- 
poblaciones. 


2. De una u otra forma (proceso logístico y/o de recolección de datos) es mejor 
estratificar y dividir la población en particiones. Lehtonen £z Pahkinen (2003) 
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afirman que algunas variables típicas de estratificación son de tipo regional 
(municipio, estado o provincia), demográfico (género o grupo de edad) y 
socioeconómico (grupo de ingresos). Existen censos, en periodos anteriores 
que pueden contener esta valiosa información. 


La necesidad de estratificad!] la población surge por una o más de las siguientes 
razones: 


e Por razones administrativas. Existen marcos de muestreo que ya tienen di- 
vidida la población en subgrupos formados naturalmente. 


e Se desea garantizar que la muestra seleccionada sea representativa con res- 
pecto al comportamiento de la población según la información auxiliar. Al se- 
leccionar una muestra aleatoria simple de una población de personas, podría 
suceder que la muestra seleccionada no incluyera a ningún hombre. 


e Se requieren estimativos con alta precisión discriminados para cada sub- 
población. Aumentar el tamaño de muestra en los estratos menos represen- 
tados. 


e Menor Coste. Distintos esquemas operativos para diversos estratos. Encues- 
tas por correo para empresas grandes. Menor tamaño de muestras en zonas 
de tolerancia o zonas de difícil manejo del orden público. 


e Reducción de la varianza en la estimación. Personas de distintas edades con 
distintas presiones sanguíneas (estratificar por grupos de edad). Se reduce 
la varianza pues los estratos son homogéneos por dentro, pero heterogéneos 
entre sí. 


El objetivo del diseño estratificado es dar un tratamiento particular a cada subgru- 
po, ya sea por razones económicas, administrativas o logísticas. Es indispensable 
delimitar bien los subgrupos en la etapa de diseño. Por ejemplo, en un estudio 
dentro de una universidad, si se quiere averiguar el número de horas que los es- 
tudiantes permanecen enfrente de un computador, no es una buena idea (defecto 
técnico) dividir la población en cursos porque los cursos no brindan una partición 
de la población, dado que en distintos cursos pueden estar los mismos estudiantes. 


5.1 Fundamentos teóricos 


Suponga que el marco de muestreo es tal que permite conocer la pertenencia de 
cada elemento de la población U en H sub-grupos poblacionales separados Ur, 
(h = 1,2,..., H) también llamados estratos. Éstos se definen como grupos de 
elementos mutuamente excluyentes. Cada elemento puede pertenecer a uno y sólo 
a un estrato. De tal forma que 


* Ujica Un =U 


¡Dividir la población en H estratos disjuntos. 
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Cada estrato U, es de tamaño N,, por tanto 
H 
NN =N (5.1.1) 
h=1 


Con la población dividida en H estratos, el objetivo sigue siendo estimar los si- 
guientes parámetros poblacionales 


1. El total poblacional, 


E y nta (5.1.2) 


keU h=1 k€U» 


donde tyn = rev, Yh 


2. La media poblacional, 
H 
a Yk an y 
y= ect == o) > Y 2 NrUn (5.1.3) 
Na 


E 1 
donde Uh == Na DnEDA Uk 


Sampath (2001) afirma que dependiendo de la naturaleza de los estratos, dife- 
rentes estrategias de muestreo pueden ser utilizadas en diferentes estratos. De tal 
forma que, en ausencia de información auxiliar, se utilice una estrategia aleatoria 
simple en algunos estratos, mientras que para aquellos sub-grupos tales que el 
marco de muestreo permita el conocimiento de información auxiliar continua, es 
posible aplicar una estrategia de muestreo proporcional al tamaño, e incluso para 
aquellos sub-grupos en los que, por obligación (logística o técnica), se deba aplicar 
un censo. 


Es importante aclarar que la selección de las H muestras es realizada de manera 
independiente en cada estrato/?] De tal forma que la muestra aleatoria queda 
definida por 


H 
= LS (5.1.4) 
h=1 


En particular, si la muestra seleccionada es s, entonces 


s= U Sh: (5.1.5) 
h=1 


2Esto se debe a la independencia entre las selecciones. Aunque se conozcan qué unidades 
serán incluidas en la muestra de algún estrato, este conocimiento no afecta, de ninguna manera, 
la inclusión de cualquier otra unidad en los restantes estratos. 

3Nótese que S es una variable aleatoria y que las medidas de probabilidad utilizadas para la 
selección de muestras en cada estrato son distintas. 
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Nótese que si el tamaño de muestra en cada estrato es igual a n,, entonces el 
tamaño de la muestra seleccionada mediante un diseño de muestreo estratificado 
es 


H 
n=)» np. (5.1.6) 
h=1 


Así, para cada estrato h _h= 1,...,H existe un conjunto de todas las posibles 
muestras denotado como soporte del estrato h, o Q,. Cada uno de los soportes Qy, 
induce la definición del soporte general de la siguiente manera 


H 
q" =l)0. (5.1.7) 
h=1 


La cardinalidad de cada soporte Q depende del diseño de muestreo utilizado en 
la selección de la muestra del estrato h. Así 


H 
4Q* = ]1+%0,. (5.1.8) 
h=1 


Por supuesto, el diseño de muestreo estratificado es un autentico diseño de mues- 
treo como lo enuncian los siguientes resultados. 


Resultado 5.1.1. Siendo pi (si), p2(s2),..., pu(s1) los diseños de muestreo utili- 
zados en cada estrato h h=1,...,H, entonces el diseño de muestreo estratificado 
se define como 


H 
v(s) = ][ on(s») (5.1.9) 
h=1 


Prueba. Se tiene que 


p(s) = Pr(Seleccionar s1 de Uj, --+, Seleccionar sy de Uy,) 


= p1(s1) SR -pu(sH), 
puesto que el proceso de selección es independiente en cada estrato. | 


Resultado 5.1.2. El diseño de muestreo estratificado cumple que 
1. p(s) > 0 para todo s € Q 
2. seo P(s) = 1 


Prueba. La primera propiedad se tiene de inmediato puesto que todas las expre- 
siones en son mayores o iguales a cero. La segunda propiedad se tiene por 
inducción matemática sobre el número de estratos. 


e Si HA = 2 existen dos soporte, uno para cada estrato, Q¡ definido como 


Q1 = (s11,812,---,81H,) (5.1.10) 


y Q3 definido como 
Q2 = (821,822, .--.,82H,) (5.1.11) 
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tales que 
Q => (51, U $21,$11 Usa, ++ .3$11 U $2H>2>+++>81H1 U 8211, ) (5.1.12) 


Ahora, como la selección de las muestras se realiza en forma independiente, 
en particular se tiene que 


p (su U 521) = p(s11)p(s21) (5.1.13) 
de manera análoga para el elemento que pertenezca al soporte. Ahora, 


y p(s) = p(s11)p(s21) + p(si1)p(s22) +... + p(s11)p(s2H,)+ 

seQ 
+ p(s1m,)p(s21) + p(sim, )p(s22) +... + p(s1m, )p(s2H) 

= p(s11)[p(s21) + p(s22) +... + p(s2H,)]+ 

+ p(sim,)lp(s21) + p(s292) +... + p(s2m,)] 


=p(s11)+...+p(s1H,) 


e Si A = k, se supone que 


S p(s) =1 (5.1.14) 


donde 


k 
0% fU sh | .sn€ os) (51,15) 


h=1 


e Si H =k=+ 1, se tienen k + 1 soportes tales que 


Q1= (811, S12)-++> s1H,) 
(5.1.16) 
Qí = [Sk1, 52, .. Shu y 
Qr+1 = [sk+1,1, Sk+1,27--+> Sk+1 Hosp 


Por consiguiente se tiene que 


> p(s) = p(Sk+1,1) dE DS) | Fu EDS ts) e p(s) 


seQ seQq* seQq* 
_——— a 
di 1 


= p(Sk+1,1) +... + D(Sk41,H,1) 
=1 
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5.1.1 Estimación en el muestreo estratificado 


Si uno de los propósitos de la estratificación es obtener estimaciones más precisas, 
cabe preguntarse qué forma toman los estimadores y cómo definirlos a través de 
los estratos; pero aun más ¿qué forma toma la varianza del estimador en los estra- 
tos y su varianza estimada?. Los siguientes resultados, responden a los anteriores 
cuestionamientos. 


Resultado 5.1.3. Si tun estima insesgadamente el total de la característica de 
interés ty del subgrupo poblacional h con varianza igual a Var(t,»), entonces un 
estimador insesgado para el total poblacional t, está dado por 


H 
A (5.1.17) 
el cual tiene una varianza igual a 
H 
Var(t,) = Y Var(tyn) (5.1.18) 
h=1 


Prueba. Dado que ah es insesgado, tenemos que 


Por otro lado, acudiendo a la independencia de la selección de muestras en cada 
estrato 


Resultado 5.1.4. Si Var(f,n) estima insesgadamente a Var(f,n), entonces un 
estimador insesgado para Var(t,) está dado por 


Var(t,) = Y Var(tyn) (5.1.19) 


Prueba. La demostración es inmediata por el insesgamiento en cada uno de los 
estratos. A 
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5.1.2 El estimador de Horvitz-Thompson 
Resultado 5.1.5. Para el diseño de muestreo estratificado, el estimador de Horvitz- 


Thompson, su varianza y su varianza estimada están dados por: 


H 
a (5.1.20) 
Vara buia) (5.1.21) 


Varo, (buh.r) (1097 


donde 
tun = YN Y (5.1.23) 


Con Var», (tyh,) es la varianza de ty», en el h-ésimo estrato y Vary, (tyn,r es la 
estimación de Vary, (tyn,) en el h-ésimo estrato. 


Ejemplo 5.1.1. Nuestra población ejemplo U dada por 
U = [Yves, Ken, Erik, Sharon, Leslie) 
se divide en dos estratos de la siguiente forma 
U, = (Erik, Sharon) 
y el segundo conformado por: 
U2 = (Yves, Ken, Leslie.) 
En el primer estrato se selecciona una muestra aleatoria de tamaño ni = 1 de 
acuerdo a un diseño de muestreo aleatorio simple sin reemplazo. Por otra parte, 


en el segundo estrato se selecciona una muestra de tamaño nz = 2 de acuerdo al 
siguiente diseño de muestreo 


1/4, si s= (Yves, Ken), 
pals) = 3 1/4, sis = (Yves, Leslie), 
1/2, sis = (Ken, Leslie). 
Realice el cálculo léxico-gráfico para comprobar el insesgamiento del estimador de 


Horvitz-Thompson para todas las posibles muestras de tamaño n = 3. Defina los 
soporte (1 y Q) así como el soporte general Q? para cada estrato. 


En las próximas secciones se estudiarán los diseños estratificados más utilizados 
en la práctica. 
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5.2 Diseño de muestreo aleatorio estratificado 


Al igual que el muestreo aleatorio simple sin reemplazo, el diseño de muestreo 
aleatorio estratificado (EST-MAS) es el más sencillo de los diseños estratificados. 
En este caso particular se selecciona una muestra aleatoria simple en cada estrato, 
de tal forma que las selecciones sean independientes. Este diseño de muestreo 
es utilizado cuando la variabilidad de la característica de interés dentro de los 
estratos es similar; en otras palabras, cuando se sabe que el comportamiento de 
la característica de interés al interior de los estratos es homogéneo. Sin embargo, 
también se utiliza cuando no se dispone de ninguna información auxiliar continua 
que permita hacer uso de diseños de muestreo, en cada estrato, que permitan 
mejorar la eficiencia de una muestra aleatoria simple. 


En cada estrato h una muestra aleatoria simple sin reemplazo de tamaño ny es 
seleccionada, de manera independiente, de la población del estrato de tamaño 
Ny, Aunque el diseño de muestreo aleatorio simple es utilizado como un método 
final de selección de elemento, en conjunto el diseño estratificado puede resultar 
dramáticamente más eficiente que utilizar un diseño de muestreo aleatorio simple 
sin dividir la población. 


Definición 5.2.1. Para tamaños de muestra fijos en cada estrato, denotados co- 
mo n;,...,ny, un diseño de muestreo se dice estratificado aleatorio simple sin 
reemplazo si la probabilidad de seleccionar una muestra de tamaño n está dada 
por 
Ts py» si a Pr 
p(s) = 53) 


0, en otro caso 


(5.2.1) 


Nótese que Epa p(s) =1 porque ¿Q% = Miss ej 


5.2.1 Algoritmos de selección 


En la selección de las muestras aleatorias simples sin reemplazo en cada estrato 
es posible utilizar los algoritmos de muestreo dados en el capítulo 3, de tal forma 
que los siguientes pasos se deben realizar. 


e Separar la población en A subgrupos o estratos mediante la caracterización 
poblacional de información auxiliar. 


e En cada estrato seleccionar una muestra aleatoria simple sin reemplazo. Los 
algoritmos utilizados en la selección de la muestra dentro de cada estra- 
to pueden ser los métodos coordinado negativo o el método de selección y 
rechazo de Fan, Muller €: Rezucha (1962). 


e Cada una de las H selecciones es realizada de manera independiente 
Ejemplo 5.2.1. Suponga que nuestra población de ejemplo U está particionada 


de acuerdo a la sección anterior. Es necesario definir los dos estratos en R, de 
manera tal que ningún elemento tenga una doble pertenencia a algún estrato. 
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> U1l <- c("Erik", "Sharon") 

> Ni <- length(U1) 

>U2 <- c("Yves", "Ken", "Leslie") 
> N2 <- length(U2) 


R permite realizar operaciones entre conjuntos de datos. En particular, el operador 
union es utilizado para verificar que la unión de los estratos dé como resultado 
la población de ejemplo U. Nótese que el tamaño poblacional es la suma de los 
tamaños de los dos estratos. 


> U <- union(U1,U2) 

>N<-  Ni+N2 

>U 

[1] "Erik" "Sharon" "Yves" "Ken" "Leslie" 
>N 

[17 5 


Se ha decidido seleccionar una muestra aleatoria simple sin reemplazo de tamaño 
ni = 1 para U; y una muestra aleatoria simple sin reemplazo de tamaño na = 2 
para Uz. De tal forma que la muestra general será de tamaño n = n] + Na = 3. 


> saml <- sample(N1, 1, replace=FALSE) 
> Ul[sami] 

[1] "Erik" 

> 

> sam2 <- S.SI(N2,2) 

> U2[sam2] 

[11 "Yves" "Ken" 

> 

> sam <- union(Ui[sam1] ,U2[sam2]) 
> sam 

[1] "Erik" "Yves" "Ken" 


Por supuesto, es posible utilizar la función sample que viene incorporada en el 
ambiente genérico de R o también es posible utilizar la función la función S.SI del 
paquete TeachingSampling. Sin importar el algoritmo de selección de las muestras 
aleatorias simples sin reemplazo, es importante notar que se han seleccionado 
tantas muestras como estratos existen en la población. 


5.2.2 El estimador de Horvitz-Thompson 


La estrategia de muestreo queda definida con el uso del estimador de Horvitz- 
Thompson. Esta estrategia es la más conocida, aplicada y discutida en los libros 
de texto. Para esto, el siguiente resultado muestra la construcción de las probabi- 
lidades de inclusión. 


Resultado 5.2.1. Para un diseño de muestreo aleatorio estratificado, las proba- 
bilidades de inclusión de primer y segundo orden están dadas por: 


n= e si k € U» (5.2.2) 
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e sik=1l,k € Un, 

Tri = na na —1 sik,le OU, (5.2.3) 
NM =1* > > 
NE sike Un, 1 EU; it h. 


respectivamente. La covarianza de las variables indicadoras está dada por 


np Ny — Rp 


¡ik=1lk 
NA Na ; SI , K € 0», 
Aj = 9 Mn (Nh na) Skicu (5.2.4) 
N? (WN, — 1) , > h> 
0, sike Un, 1 EU, 14h. 


Prueba. Sea k € U», 


Tk = Pr(k € S) = Pr(k € S,) 
= Pr(Lx(Sp) = 1) 
(DC) _ mm 


COMO 


Nh 


por otro lado, si k,l € U,, 


Tkl = Pr(k E Sh y l€ Sh) 
NN Pr(Iy (Sy) == 112(S,) = DP(1(S,) NN 1) 
na=1m  npn,-=1 


NN NAT 


Pero, si k € U,,l € U;,i 4 h, por la selección independiente en los estrato h e 2, 
se tiene que 


Tre = Pr(k € S, y l € S;) 
= Pr(k € SyPr( € Si) 
Na Mi 


— Na Ni 
m 


Una de las razones por las que se utiliza el diseño de muestreo estratificado es 
porque se desean estimativos de gran precisión en lo subgrupos. Siendo así, al 
aplicar un diseño EST-MAS se tiene el siguiente resultado que permite obtener 
estimaciones insesgadas y precisas para cada subgrupo poblacional. 
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Resultado 5.2.2. Bajo un diseño de muestreo aleatorio simple sin reemplazo en el 
estrato h, un estimador insesgado del total t,,,, su varianza y su varianza estimada 
están dados por 


. N 
tyhyr = > Uk (5.2.5) 
de kESh 
? Ni MIA 2 
Varmasltyn,r) = a ( e 7) Se, (5.2.6) 
Voy ? pa Nk Mn 2 
Varmasltyn) = a ( - 7) si (5.2.7) 
respectivamente. En donde 
il £ 
Seo, E Noi $ (Ya — Tor), h=1,...,H. (5.2.8) 


la varianza poblacional de la característica de interés en el estrato Uj, y con 


1 

DO o - ES 

Sis, = sl S (Y —Is,,), h=1,...,H. (5.2.9) 
kES» 

la varianza muestral de los valores de la característica de interés en la muestra 

aleatoria del estrato Sj. Nótese que tyn,n es insesgado para el total ty, de la 


característica de interés y, y que Varmas(tyn) es insesgado para Var As[tyn,r) 


Prueba. Al notar que el subgrupo U,, puede ser tratado como una población 
separada, la demostración es inmediata al seguir los lineamentos de la demostración 
del resultado 3.2.4. al 


Una vez se tienen las estimaciones para los subgrupos poblacionales o estratos, se 
sigue que el total poblacional t, puede ser estimado usando el siguiente resultado. 


Resultado 5.2.3. Para un diseño de muestreo aleatorio estratificado, el estimador 
de Horvitz-T'hompson del total poblacional t,, su varianza y su varianza estimada 
están dados por: 


H H 
a Y (5.2.10) 
yr yh,a — na Uk Ze 
h=1 h=1 kESh 
H 
AS N? n 
Varmarlty) => A ( - e) SiN (5.2.1) 
h=1 
H 
—— » N? n 
Varmarnltyn) =>, e ( - 7) So (5.2.12) 


h=1 
respectivamente. Nótese que di es insesgado para el total t, de la característica 
de interés y, y que Varups[ty.) es insesgado para Varmarltyn). 


Prueba. Dado que bien estima insesgadamente el total £,,, del subgrupo poblacio- 
2 
nal h con varianza dada por me ( =- 0) SU» entonces al utilizar los resultados 


5.1.3. y 5.1.4 se tiene de manera inmediata la demostración. ] 
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Ejemplo 5.2.2. Para nuestra población de ejemplo U, existen (5) 168) = 6 posi- 
bles muestras de tamaño n = 3. Realice el cálculo léxico-gráfico del estimador de 


Horvitz-Thompson y compruebe el insesgamiento y la varianza. 


5.2.3 Estimación de la media poblacional 


Una de las formas de conocer si existen diferencias con respecto a los valores que 
toma la característica de interés en los diferentes estratos, es estimar la media 
Yun en el subgrupo U,,. De hecho, el diseño estratificado adquiere más validez y 
ganancia en precisión cuando el comportamiento promedio de la característica de 
interés es diferente en cada estrato. 


Resultado 5.2.4. Bajo un diseño de muestreo aleatorio simple sin reemplazo en 
el estrato h, un estimador insesgado de la media Yy», su varianza y su varianza 
estimada están dados por 


A 1 
YUh,r = a Uk (5.2.13) 
kES» 
a 1 Nh 2 
Af 4 PR 2.14 
Varmas[(Yun,r) añ ( 7) SyUn (5 ) 
po A 1 Nh 2 
pe pp [E eat 
Varmas[yun,r) a ( 7) an (5.2.15) 


respectivamente. Nótese que YU hm es insesgado para la media del estrato yy de la 
característica de interés y, y que Var mAs (Yun. ) es insesgado para Var mas (Yun.r)- 


Por el contrario del razonamiento que se tuvo en la estimación del total poblacional, 
es equivocado pensar de la siguiente manera: 


Si un estimador insesgado del total poblacional t, es la suma de cada 
una de las estimaciones en los H estratos, entonces un estimador del 
promedio poblacional yy será un promedio de los promedios estimados 
en los H estratos. 


El anterior razonamiento es intuitivo pero es errado la siguiente razón: 


> YU, + YU2 ++. + YU 
Yu A E = 


Es fácil verlo con nuestra población de ejemplo U en donde el primer estrato Uj 
tiene una media igual a yy, = 67.5, el segundo estrato Uz tiene una media igual 
a Yu, = 33.67. Por tanto (Yu, + Yu,)/2 = 50.58 mientras que la verdadera media 
poblacional es yy = 47.2. 


Resultado 5.2.5. Bajo un diseño de muestreo aleatorio simple sin reemplazo en 
el estrato h, un estimador insesgado de la media yy, su varianza y su varianza 
estimada están dados por 


H 
z e 1 Ñ 
Dor =>5tur = $7 2Mabo (5.2.16) 
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A H 
a Var rn 1 ÑN,, n 
Varmar(Yyu,r) = Mar um) — mE ) E ( E ) SU» (52.17) 


Varmas(Í0,n) = == Ss? (5.2.18) 


_— » H 
Varmarlty,r) 1 N» ¡”a 
N?2 N?2 — "h 


respectivamente. Nótese que Yu. es insesgado para la media poblacional Yy de la 
característica de interés y, y que Var mas (Uv. ) es insesgado para Var man (Yu.n)- 


Intervalos de confianza 


Al respecto Lohr (2000) afirma que un intervalo de 100(1— a) % de confianza para 
la media de una población está dado por 


YU,” 5 EE Z1-2 Varmarz(Yu.r) (5.2.19) 


si se cumple algunas de las siguientes condiciones 


e El tamaño de muestra nj en cada estrato h es grande. 
e Existe una gran número de estratos. 
Si las anteriores condiciones no pueden ser satisfechas, se prefiere utilizar el per- 


centil de una distribución t-student con N— H grados de libertad. Así, un intervalo 
de confianza para la media poblacional está dado por 


YU Et1-2,N-H4/Vormar(Yu,n) (5.2.20) 


5.2.4 Asignación del tamaño de muestra 


Tal vez, la parte más importante en el diseño de una encuesta es la determinación 
del tamaño de muestra. En muestreo estratificado, bajo la restricción de que el 
tamaño de la muestra general es n y de la existencia de H estratos fijos, se quiere 
determinar los tamaños de muestra n, para cada estrato h de tal manera que 
se garantice la ganancia de precisión del estimador. Lehtonen € Pahkinen (2003) 
señalan que en investigaciones por muestreo reales, las cuales incluyen varias ca- 
racterísticas de interés, es imposible lograr que la asignación de la muestra arroje 
ganancias en la eficiencia de manera global (para cada una de las características 
de interés). 


Asignación proporcional 


Se decide utilizar este tipo de asignación cuando la muestra debe ser representativa 
de la población de acuerdo al comportamiento de la información auxiliar. Lohr 
(2000) lo expresa de la siguiente manera 


Al utilizar la asignación proporcional, la muestra se puede ver como 
una versión miniatura de la población. 
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Si se define la fracción de muestreo como f; = ny /N, en el estrato h, entonces 
al utilizar la asignación proporcional la fracción de muestreo será la misma para 
todos los estratos, tal que fh = f. Nótese que la probabilidad de inclusión de 
cualquier elemento en la población Tr = fh = f es constante y fija. De esta 
manera, cada unidad en la muestra representará el mismo número de elementos 
en la población, independientemente del estrato al que pertenezca. 


Definición 5.2.2. Un diseño de muestreo aleatorio estratificado tiene asignación 


proporcional si 
n n 
== h=1 


—= H 52.21 
TT ( ) 


Resultado 5.2.6. Para un diseño de muestreo aleatorio estratificado con asigna- 
ción proporcional, el estimador de Horvitz-T'hompson del total poblacional t,,, su 
varianza y su varianza estimada están dados por: 


, N 
tur =D Y (5.2.22) 
kes 
a N? ni EÁn 
vor E a 
h=1 
_— A N? ny 
Varmasltyn) == (1 >)Y 0 (5.2.24) 
h=1 


Prueba. Observando la relación de la definición anterior se tiene que 


a N» 
tur = Y 
ht es 
h 
NA 
EPI 
n 
h=1 k€S» 
N 
=iA Uk 
kes 
Para las varianzas se tiene que 
H H 
N? ( 5) 2 N? ( >) 
eN Ss U, = uN 1- np, 
2 nh N, YUh 2 e N, YUh 
H H 
N?2 n N?2 n Nh 2 
_ El Ñ 5) Si, 5 ( a y 90, 
h=1 h=1 


Asignación de Neyman 


Jerzy Neyman en su artículo de 1934, discutía el problema de la selección de una 
muestra mediante métodos probabilísticos versus la selección de una muestra a 
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conveniencia. En ese artículo, él observa las grandes bondades de los dos métodos. 
Sin embargo, mostró que separando la población en subgrupos poblacionales que 
llamó estratos y tomando muestras aleatorias simples sin reemplazo, los límites 
del intervalo de confianza podían ser minimizados para un tamaño de muestra 
fijo. Este artículo fue fundamental en el uso del muestreo estratificado alrededor 
del mundo. 


Neyman trató con el problema de minimizar la varianza Varmarltyr) del es- 
timador de Horvitz-Thompson fijando el tamaño de muestra general n. Como 
lo mencionan Groves, Fowler, Couper, Lepkowski, Singer £z R. (2004), bajo este 
método se producen las menores varianzas para la media muestral comparado con 
otras técnicas de asignación de tamaño de muestra. Para realizar esta asignación es 
necesario conocer los tamaños de muestra en cada estrato ny tal que o nh = MN. 


Resultado 5.2.7. Bajo la asignación de Neyman, el tamaño de muestra que mi- 


nimiza (5.2.11) está dado por 


NS 
np =N —_ A (5.2.25) 
2p=1 NrSyo,, 
donde SyUr = SU, 
Prueba. La cantidad a minimizar es 
H 
N? 1 Nh y 
Y nh ON yUn 
h=1 
sujeta a 
H 
Em=n 
h=1 
La ecuación de Lagrange se escribe como 
NE mn H 
_ h h 2 
Ena: 50M )= Y . ( = Ss 40, — A (> > ru) (5.2.26) 
h=1 h=1 
al anular las derivadas parciales se tiene 
OL = 
y y n,=0 (5.2.27) 
h=1 
OL N., 
= — FA=0 5.2.28 
On», me Sy0, ) 
De (5.2.28) se tiene que 
N, 
Nh (5.2.29) 


Reemplazando en (5.2.27) 
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Por tanto, 


H 
= 1 
VA = E Y NSyo, (5.2.30) 
h=1 
Por último, reemplazando en (5.2.29) se tiene que 
n N» SyUn 
H 
ia N, SyUn 
Es posible mostrar que la matriz de segundas derivadas parciales es definida posi- 
tiva para los valores que satisfacen las restricciones. Así se concluye que lo valores 


de n, dados por este resultado minimizan la varianza del estimador de Horvitz- 
Thompson bajo un tamaño de muestra fijo. mn 


Nh = 


Por supuesto, es necesario conocer las varianzas de la característica de interés en 
cada estrato para poder utilizar este método. Con respecto a la asignación de 
Neyman se tienen problemas de redondeo, en este caso es recomendable redon- 
dear al entero más próximo. Sin embargo, la expresión (5.2.25) puede llevar a la 
situación en donde nz, > NW. En este caso, se realiza un censo en el estrato en don- 
de la anterior relación se presente y luego se restablece el cálculo de n; para los 
demás estratos. Cuando se realiza un censo en un estrato, debido a la asignación 
de Neyman, o al diseño logístico de la encuesta, ese estrato es llamado estrato de 
inclusión forzosa. 


Aunque utilizar este método puede guiar a ganancias en la eficiencia de la estrategia 
de muestreo, Groves, Fowler, Couper, Lepkowski, Singer € R. (2004) señalan las 
siguientes debilidades de la asignación de Neyman: 


e Al estimar proporciones no se tienen buenos resultados. Dado a que se re- 
quiere que las proporciones tengan grandes diferencia entre los estratos. En 
la vida práctica esta situación no se tiene en la mayoría de ocasiones. 


e Por construcción, este método funciona bien bajo el supuesto de que sólo 
existe una característica de interés. Cuando se tiene trabaja en encuesta 
multi-propósito no se tiene una reducción de varianza para todas las carac- 
terísticas de interés incluidas en la investigación. 


Asignación óptima 


Este es un método más general que la asignación de Neyman. Si al interior de algún 
estrato, existe una gran variabilidad, el anterior método de asignación induce un 
mayor tamaño de muestra en el estrato. Como lo expresa Lohr (2000) en el sector 
empresarial, por ejemplo, las ventas de las compañías grandes tienen un mucho 
mayor dispersión que las ventas de las micro-empresas. 


Sin embargo si, como en la mayoría de situaciones prácticas, se cuenta con recursos 
económicos limitados para la realización del estudio. Y dado un capital, se quiere 
minimizar la varianza de la estrategia de muestreo, se debe realizar otro tipo de 
asignación. Por lo tanto definiendo la siguiente función de costos 


H 
C=Y nCh (5.2.31) 
h=1 


5.2. Diseño de muestreo aleatorio estratificado 179 


En donde C, es el costo de obtener la información para las características de interés 
de un elemento seleccionado y perteneciente al estrato h y C es el costo total de 
la realización del estudio. Luego, si se quiere distribuir la selección de elemento 
entre los estratos dado un costo fijo C, de manera que se minimice la varianza del 
estimador de Horvitz-T'hompson, se debe utilizar la asignación óptima. 


Resultado 5.2.8. Bajo la asignación óptima, el tamaño de muestra que minimiza 
la función de coste está dado por 
C NSyU, 
H 
VOR Y 1 Niy/ciSyu, 


Nh = 


(5.2.32) 


Prueba. Resulta inmediata al utilizar un razonamiento similar a la demostración 
del resultado de la asignación de Neyman. Es posible mostrar que la matriz de 
segundas derivadas parciales es definida positiva para los valores que satisfacen 
las restricciones. Así se concluye que lo valores de nj dados por este resultado 
minimizan la varianza del estimador de Horvitz-Thompson bajo un coste fijo. Mi 


La expresión de la asignación óptima lleva a las siguientes conclusiones. En un 
determinado estrato, se debe seleccionar una muestra de tamaño grande sí: 


e El tamaño del estrato N,, es grande y la recolección de la información en el 
estrato es más barata. 


e El estrato tiene una gran dispersión con respecto a la característica de es- 
tudio. En este caso, se extrae una muestra más grande para compensar la 
heterogeneidad dentro del estrato. 


5.2.5 Estimación en dominios 


La estimación por dominios se caracteriza por el desconocimiento de la pertenencia 
de las unidades poblacionales al dominio. Es decir, para conocer cuáles unidades de 
la población pertenecen al dominio, es necesario realizar el proceso de medición. Sin 
embargo, existe un símil entre los estratos y los dominios y es que los dos dividen la 
población en subgrupos poblacionales. Por un lado, mientras que el conocimiento 
a priori de la pertenencia de los elementos poblacionales a los estratos ayuda a 
mejorar la eficiencia de la estimación en la etapa de diseño de la encuesta. Por 
otro lado, el precio que se debe pagar por el desconocimiento de la pertenencia de 
los elementos poblacionales a los dominios resulta alto. 


Uno de los propósitos del diseño de muestreo estratificado es reducir la varianza 
de las estimaciones para la característica de interés. Esto se cumple en el caso 
en donde el comportamiento de la característica de interés (como se verá en las 
próximas secciones) toma valores promedio distintos en cada estrato. Sin embargo, 
en la estimación de proporciones para dominios no se garantiza que la anterior regal 
se cumpla. 


Ahora, al multiplicar la variable de pertenencia al dominio zaz dada por (3.2.22) 
por el valor de la característica de interés yy, se crea una nueva variable ya dada 
POr Yak = ZakYx, y Una vez construida se utilizan los principios del estimador de 
Horvitz-Thompson para hallar un estimador insesgado del total de la característica 
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de interés en el dominio Uy, el tamaño absoluto del dominio y la media de la 
característica en el dominio. Por supuesto, antes de obtener las estimaciones a 
nivel poblacional, es necesario aunque no suficiente, obtener las estimaciones de 
los dominios en los estratos. 


Estimación del total en un dominio 


Resultado 5.2.9. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el total del dominio tyna en el estrato h, su varianza y su varianza 
estimada están dados por 


A N 
tundr = . Yhdk (5.2.33) 
Sh 
A N? Nh 
Var(tunan) = ER ( — 7) a (5.2.34) 
— o N? Nh 
Corlbundir) = le ( $ 7) os. (5.2.35) 


respectivamente. ynax es el valor de la nueva característica yax en el h-ésimo estrato. 

S; q Y Ss; us, Jenotan el estimador de la varianza de los valores de la característica 
h Sh 

de interés ya en el estrato U,, y en la muestra sy seleccionada de dicho estrato, 


respectivamente. 


Resultado 5.2.10. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el total del dominio ta en la población, su varianza y su varianza 
estimada están dados por 


A N» 
tydr = de Ena 5 Yhdk (5.2.36) 
h=1 Sh 
H 
A N? Nh 
Var(tya/n) = y ei ( E 7) id (5.2.37) 
h=1 0" 
H 
ON N? 
Varia) => 73 ( - 5) Ei (5.2.38) 
h=1 


Nótese que en la expresión Sn 50; los valores que intervienen son: los de la carac- 
terística de interés, si el elemento pertenece al dominio, y ceros si el elemento no 
pertenece al dominio, lo mismo sucede con as Por tanto, las anteriores expre- 
siones de varianza van a tomar valores grandes por la inclusión de los ceros; éste 
es el precio que se debe pagar por el desconocimiento de la pertenencia de los 
elementos a los dominios. 


Estimación de la media de un dominio 


Resultado 5.2.11. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para la media de la característica de interés en un dominio Yay, en el 
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estrato h, su varianza y su varianza estimada están dados por 


A 1h ES 
YU 7 = e (5.2.39) 
2 1 Z 
Var(Yau,, 7) NN vz Var(tynd,n) (5.2.40) 
hd 
TS ll» 
Var(YaU,,m) == pz Var(tynd,n) (5.2.41) 


Resultado 5.2.12. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para la media de la característica de interés en un dominio ya en la 
población, su varianza y su varianza estimada están dados por 


z ds 
a EN (5.2.42) 
: 1 ] 
Var(Yan) = 53 V ar(tya,n) (5.2.43) 
d 
e dE 
Var(Yan) = 53 V ar(tya,n) (5.2.44) 
d 


Para poder utilizar los anteriores resultados, es necesario conocer de antemano el 
valor del tamaño absoluto del dominio en cada estrato Nyg y el valor del tamaño 
absoluto del dominio en la población N¿. 


Estimación del tamaño absoluto de un dominio 


Resultado 5.2.13. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el tamaño absoluto de un dominio Ny en el estrato h, su varianza 
y su varianza estimada están dados por 


a ÑN 
Nip a PR Zdk (5.2.45) 
Nh Sn 
AS e N? Nh 2 
Var(Nhar) = e ( — 7) Sao, (5.2.46) 
A A N? Nh 
Nr) == [1-2 | 82 2.4 
VaríNha,r) = 7, ( e) der (5.2.47) 


respectivamente, con S? ROL se? 4. €l estimador de la varianza de los valores de 
h Sh 
la característica de interés zq] en el estrato U, y en la muestra s,, seleccionada de 


dicho estrato. 


Resultado 5.2.14. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el tamaño absoluto de un dominio N¿ en la población, su varianza 
y su varianza estimada están dados por 


EN 
Nan = > E > Zdh (5.2.48) 
h=1 "PS, 
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A E NE Nh 2 
Var(Ñan) = o (5.2.49) 
h=1 h h 
H 
E N? 
Var(Ñan) = Y a ( e 7) Sp (5.2.50) 
h=1 


respectivamente. 


Nótese que en la expresión Se los valores que intervienen son unos, si el elemento 
h 
pertenece al dominio Uy, y ceros si el elemento no pertenece al dominio, lo mismo 


2 
sucede con Ss. 


Estimación del tamaño relativo de un dominio 


Resultado 5.2.15. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el tamaño relativo de un dominio Pa en el estrato h, su varianza 
y su varianza estimada están dados por 


a lo. 1 
Phdr = mn, Nhdyr == Y agp = (5:2:51) 
h mE Nh 
a ES il Nh 2 
Var(Pha,r) = Pe ( € 5) Szgu, (5.2.52) 
vaa tre Re (5.2.53) 
ar A)==l1-—]S De 
hd, Nh N ds» 


Resultado 5.2.16. Bajo muestreo aleatorio estratificado, el estimador de Horvitz- 
Thompson para el tamaño relativo de un dominio P¿ en la población, su varianza 
y su varianza estimada están dados por 


A Nair 1 N, 
Biáir = Z=- 5.2.54 
A E (5.2.54) 
h=1 S 
H 
A 1 N? Nh 
Pan) = 1 a dy 
Var(Par) N2 2 na ( 7) ao, (5.2.55) 
H 
—oa 1 N? Nh 
Pan) = e z D, 
Var(Par) N2 2 na ( 7) Sas, (5.2.56) 


5.2.6 El efecto de diseño 


Lehtonen 4 Pahkinen (2003) plantean que la eficiencia del diseño de muestreo es- 
tratificado depende fuertemente de la proporción de variación total en cada estrato. 
Es decir, utilizando los resultados del análisis de varianza, tenemos el siguiente 
resultado: 
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Resultado 5.2.17. Suponga que la población se divide en h grupos, de tal forma 
que existen Ny, elementos por grupo y el tamaño poblacional toma la forma N = 
YN, entonces 


H H 
(N= 157, E, (Ye — Do)” = YY (um — Gu) + YN (Yu, — Yu)” 
U h=1 U, h=1 
sCcT SCD SCE 
(5.2.57) 


Empíricamente observando la construcción de la varianza del estimador de Horvitz- 
Thompson en la ecuación (5.2.11) se puede inferir que para tener una varianza 
pequeña, la variación al interior de los estratos debe ser pequeña. Es decir, los es- 
tratos deben ser homogéneos por dentro. Cada esquema de asignación de muestras 
arroja resultados diferentes en cuanto a la eficiencia se refiere. En esta sección se 
considera el esquema de asignación de muestra proporcional dado por la definición 
5.2.2. en donde la varianza del estimador de Horvitz-Thompson está dada por la 
siguiente expresión: 


a N? 
Varmarltyr)=— ( 


H 
n 
1-5) Wisin, (5.2.58) 
h=l 


donde Su, es la varianza de la característica de interés en el estrato h y W, = 
Nh Se 


y - Con un poco de álgebra se llega al siguiente resultado. 


Resultado 5.2.18. Bajo un diseño de muestreo aleatorio simple sin reemplazo con 
asignación proporcional, la varianza del estimador de Horvitz-Thompson toma la 
siguiente forma 


N?2 de 
Varmasllyn) S => —(1 da y) 2 Sóv, + (Yu, — Yu)”] (5.2.59) 
Prueba. 
(N— DSi, = S (yr — Guy (5.2.60) 
a 
=)9 Y (unr — du)” (5.2.61) 
h=1 U 
H H 
= Y Y (ye — Gu,) + Na (Gu, — Yu)" (5.2.62) 
h=1 Un h=1 
H H 
= Y (Nh — 1)Sju, + » Na (Yu, — qu)” (5.2.63) 
h= h=1 


Por tanto 
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H 
ÑN; 
Sit E Y e (So, US guy] (5.2.64) 
h=1 
N? n H Ñ Ñ 
E 2 [Sjo, + (Gu, — 90)” (5.2.65) 
| 


Resultado 5.2.19. El efecto de diseño en el muestreo aleatorio simple sin reem- 
plazo con asignación proporcional está dado por 


H 2 
ad W, SyUn 


Def = a (5.2.66) 
o: W, [So + (Yu, e Yu)? 

(5.2.67) 

ás Varianza dentro de los estratos (5.2.68) 


Varianza Total 


Ahora, intuitivamente tenemos que 
Varianza Total =— Varianza dentro + Varianza entre 


Por tanto se concluye que, casi siempre, esta estrategia de muestreo arrojará me- 
jores resultados que una estrategia aleatoria simple. 


5.2.7 Marco y Lucy 


En investigaciones anteriores (que no ha utilizado información auxiliar), el gobier- 
no ha establecido que la característica SPAM no es un motor de desarrollo, en 
cuanto a ingreso neto se refiere, en las empresas del sector industrial. Lo anterior 
puede obedecer a razones de tipo gerencial o a la cultura organizacional de las 
empresas en el sector. Por supuesto, el modus operandi del gerente de marca y 
las estrategias de posicionamiento de marca en el mercado varían de acuerdo a la 
productividad y tamaño de la empresa. De hecho, no es posible, por cuestiones 
financieras y logísticas, que una empresa de muy baja productividad utilice los 
medios publicitarios que una empresa de alto nivel pueda utilizar. Las empresas 
de alto nivel han dispuesto una parte de sus ganancias en la reinversión publicitaria 
en medios masivos de comunicación. Las empresas de bajo nivel no pueden hacer 
esto porque sus márgenes de ganancia no se prestan para pautar en esta clase de 
medios. 


Por lo anterior, cada estrategia de mercadeo es diferente, entre otras, porque cada 
cliente de cada empresa es diferente de acuerdo al nivel de productividad en el 
sector industrial. Es decir, los clientes de las empresas grandes son clientes que se 
caracterizan porque realizan pedidos de varios millones de dólares, y los clientes de 
las empresas pequeñas se caracterizan por ser empresas emergentes y, en algunos 
casos, personas naturales independientes, por tanto el margen de ganancias en 
cada nivel del sector empresarial es muy distinto. 
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Sin embargo, independientemente del tipo de cliente e incluso del nivel de la em- 
presa en el sector industrial, existe una herramienta que todas las empresas en el 
sector industrial pueden utilizar: el envío de publicidad directa mediante el uso 
del correo electrónico. Por supuesto, en países no desarrollados, en las empresas 
pequeñas, una vez más ya sea por el tipo de gerencia o cultura organizacional o 
incluso por cuestiones financieras, no existe la infraestructura ni la capacitación 
para establecer este tipo de publicidad no convencional. 


Bajo estos antecedentes, el gobierno está dispuesto a brindar planes de financia- 
miento a todas las empresas del sector industrial, por lo que ha planeado una 
nueva investigación acerca de los hábitos y usos del SPAM en las empresas del 
sector industrial para observar el desarrollo que el sector ha tenido gracias a es- 
te medio. La figura 5.1. muestra el comportamiento de las tres características de 
interés para el gobierno. Se nota que existe una mayor variabilidad en las empre- 
sas que pertenecen al nivel Grande, mientras que la variabilidad en los niveles 
Mediano y Pequeño es menor. Más aún, el comportamiento promedio de las 
variables de interés es distinto en cada estrato. Esto implica que utilizar un diseño 
de muestreo aleatorio estratificado sería una buena decisión si se quiere ganar en 
precisión. 
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Figura 5.1: Boxplot de las características de interés en cada nivel industrial. 


Por supuesto, el gobierno ha creado un plan de políticas con la promesa de bene- 
ficiar al electorado. Si el gobierno corrobora la hipótesis, por medio del presente 
estudio, de la influencia del SPAM en el crecimiento del algún nivel del sector 
industrial, entonces buscará planes de capacitación y financiamiento para que las 
empresas de los niveles Mediano y Pequeño crezcan, se estabilicen y fomenten 
la creación de nuevos empleos y el tributo a las entidades gubernamentales perti- 
nentes y, que las empresas del nivel Grande no desciendan de nivel sino que se 
expandan no sólo nacionalmente sino que también en el ámbito internacional a 
donde también puede llegar la publicidad SPAM en cuestión de micro segundos. 


Para esta nueva investigación, el gobierno ha proveído un marco de muestreo que 
además de contener la ubicación y la identificación de todas las empresas de todos 
lo niveles industriales, también adjunta el tipo de empresa, a saber: Grande, 
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Media, Pequeña. El tipo de empresa será tomada como variable de estratificación 
para el diseño del plan muestral. 


Estimación del tamaño de muestra 


El gobierno está decidido en implementar un plan de capacitación a las empresas 
del sector industrial y ha pedido que el diseño de muestreo sea representativo de la 
población en cuanto a la característica de estratificación: Nivel. Está razón nos lleva 
a utilizar la asignación proporcional para la estimación del tamaño de muestra. 
Se planea la realización de n = 400 encuestas, por tanto f = O = 0,167. 
Esto implica la realización de n; = 14 encuestas de empresas grandes, n2 = 123 


encuestas en empresas medianas y n3 = 263 encuestas en empresas pequeñas. 


Para la selección de la muestra, se debe cargar el marco de muestreo en el ambiente 
de R. Con la variable de estratificación Nivel se determinan los tamaños de cada 
uno de las estratos que se debe convertir en un vector de tamaño H = 3, así N <- 
c(N1,N2,N3), lo mismo se debe hacer con los tamaños de muestra en cada estrato, 
se deben convertir en vector asín <- c(n1,n2,n3). 


> data(Lucy) 

> attach(Lucy) 

> Ni <- summary(Level) [[11] 
> N2 <- summary(Level) [[21] 
> N3 <- summary(Level) [[31] 
> N1;N2;N3 

[11 83 

[11 737 

[1] 1576 

> N <- c(N1,N2,N3) 

> n1 <- 14 

> n2 <- 123 

> n3 <- 263 

> n <- c(n1,n2,n3) 


Utilizando la función S.STSI del paquete TeachingSampling es posible seleccionar 
una muestra aleatoria simple en cada uno de los tres estratos. Esta función consta 
de tres argumentos. El primero: Estrato, es la variable de estratificación que 
indica la pertenencia de todos y cada uno de los yo N, = N individuos de la 
población. El segundo argumento: N, un vector de tamaño H que indica los tamaños 
de cada estrato en la población. El último argumento: n, un vector de tamaño H 
que indica los tamaños de muestra en cada estrato. El resultado de la función es 
un conjunto de índices que, aplicados a la población, permite la obtención de la 
muestra estratificada. 


sam <- S.STSI(Level,N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 
muestra 

ID Ubication Level Zone 
2336 AB1126 c25k59 Big A 


VvVvoy 
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2321 AB1039 


1676 AB1095 


Cc25k44 Big A 


c17k92 Medium A 


2088 AB724 c23k9 Medium D 
322 AB1514 c4k25 Small B 
1576  AB962 c16k91 Small E 


La muestra realizada (seleccionada) es de tamaño 400 y está dividida en cada uno 
de los tres estratos. Una vez que la selección de los elementos es efectuada, se 
necesita obtener la información mediante una encuesta a cada una de las empresas 
del sector industrial. Nótese que en este punto, la realización de un muestreo es- 
tratificado tiene ventajas logísticas. Lo anterior es evidente cuando se decide que 
el cuestionario será enviado vía correo electrónico a cada una de las 14 empresas 
del nivel Grande. Por tanto, la realización de esta entrevista arroja ventajas fi- 
nancieras enormes pues el envío de un correo electrónico no supone mayor gasto. 
Para la realización de la encuesta en el nivel Mediano se ha decidido contratar a 
una agencia de correos postales y, de esa forma, hacer llegar mediante correo cer- 
tificado un cuestionario con la respectiva encuesta. No se aplica el mismo medio 
logístico que en las empresas grandes pues se sabe que no todas las empresas me- 
dianas tienen una dirección de correo electrónico actualizada, lo que no sucede en 
el estrato grande. Para obtener la información del sector industrial se ha decidido 
enviar encuestadores entrenados para el trabajo. Lo anterior se hace dado que los 
propietarios de las empresas pequeñas son reacios a responder las cartas certifica- 
das y mucho menos responden el correo electrónico dado que tienen compromisos 
operativos que atender. 


Una vez conseguida la información de cada una de las 400 empresas selecciona- 
das, se procede a estimar las cantidades de interés. Para esto se utiliza la función 
E.STSI del paquete TeachingSampling. Esta función consta de cuatro paráme- 
tros muestrales, a saber: Estrato, es la variable de estratificación que indica la 
pertenencia de todos y cada uno de los as n = n individuos seleccionados en 
la muestra, N y n, los vectores del tamaño de la población y muestra estratificada 
respectivamente y estima conteniendo el valor de la(s) característica(s) de interés 
en cada uno de los elementos seleccionados. 


> estima <- data.frame(Income, Employees, Taxes) 
> E.STSI(Level,N,n,estima) 


>» » Income 


Grande Mediano Pequeño Total 
Total est 1.024279e+05 4.866417e+05 4.389550e+05 1.028025e+06 
Varianza  1.677372e+07 5.331612e+07 1.190085e+08 1.890984e+08 
cve 3.998493e+00 1.500445e+00 2.485244e+00 1.337644e+00 
>» » Employees 

Grande Mediano Pequeño Total 
Total est 1.176229e+04 6.035011e+04 8.367182e+04 1.557842e+05 
Varianza  5.130655e+05 3.150449e+06 5.470307e+06 9.133822e+06 
cve 6.089683e+00 2.941089e+00 2.795289e+00 1.940005e+00 
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>» , Taxes 

Grande Mediano Pequeño Total 
Total est 5.887/071e+03 1.617206e+04 5968.425856 2.802755e+04 
Varianza  2.068935e+05 2.788990e+05 79853.628890 5.656461e+05 
cve 7.726345e+00 3.265564e+00 4.734646 2.683411e+00 


La función E.STSI arroja la estimación de cada una de las características de interés 
discriminada por cada estrato y el gran total así como también la varianza estimada 
y el coeficiente de variación estimado. Nótese que en cuestión de ingreso, se estima 
que el estrato grande produce un 10%, el estrato mediano un 47% y el estrato 
pequeño un 43% del ingreso neto del sector industrial. Un resultado similar se 
observa con las restantes características de interés. Nótese que los coeficientes de 
variación estimados en cada estrato son, en algunos casos elevado! sin embargo, 
el coeficiente de variación para el total es bajo. 


En la siguiente tabla se muestran los resultados particulares para este ejercicio. 
Se puede notar que la estratificación arroja buenos resultados con coeficientes de 
variación menores a los que arrojaría una muestra aleatoria simple. Esto se debe a 
que las variables de interés presentan, en promedio, un comportamiento diferente 
en cada estrato. 


Tabla 5.1: Muestreo aleatorio estratificado: estimación de los totales de las carac- 
terísticas de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 10283025 1.33 -0.69 
Empleados 151950 155784 1.94 2.52 
Impuestos 28654 28027 2.68 -2.19 


La función Domains contenida en el paquete TeachingSampling se utiliza para 
obtener las variables indicadoras Z¿% para cada dominio, el único argumento de 
la función es un vector de pertenencia de cada individuo. En este caso, el vector 
de pertenencia es SPAM, la salida de esta función es una matriz de unos y ceros, 
en donde cada columna está dicotomizada. Existen tantas columnas como subgru- 
pos poblacionales, y en cada columna el número uno implica la pertenencia del 
elemento al dominio y cero la no pertenencia del elemento al dominio. 


> Dominios <- Domains(SPAM) 


> SPAM.si <- Dominios[,2]*estima 
> SPAM.no <- Dominios[,1]*estima 


Para estimar el tamaño absoluto de cada dominio, lo único que se debe hacer es 
multiplicar la matriz de características de interés (en este caso, la matriz llamada 
estima) por cada columna de la matriz resultante de la dicotomización. Utilizando 
la función E.STSI en la matriz resultante de la dicotomización obtenemos las 
estimación de los tamaños absolutos de cada dominio. En este caso, se estima que 


4El coeficiente de variación es más alto a medida que las estimaciones estén más discriminadas 
en grupos. 
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1390 empresas ya están utilizando otras técnicas de publicidad como el SPAM, 
mientras que las restantes 1006 no lo están haciendo. Además en cada uno de los 
tres estratos existen más empresas que están utilizando el SPAM que las que no 
lo están haciendo y es interesante que en el estrato de las empresas pequeñas por 
cada 2 empresas que no utilizan el SPAM existen 3 que sí lo hacen. 


Nótese que la varianza de cada estimación sigue siendo la misma, puesto que los 
valores de esta característica de interés son ceros y uno y, por tanto, la estructura 
de varianza resulta idéntica en cada caso. 


> E.STSI(Level,N,n, Dominios) 


Grande Mediano Pequeño Total 
Total est  35.57143 323.560976  647.178707 1006.311111 
Varianza  107.88697 913.500219 1911.452916 2932.840105 
cve 29.20002 9.341104 6.755501 5.381606 


Grande Mediano Pequeño Total 
Total est  47.42857 413.439024  928.821293 1389.688889 
Varianza  107.88697 913.500219 1911.452916 2932.840105 
cve 21.90002 7.310429 4.707059 3.896966 


Esta claro que existe una tendencia en el sector industrial de publicidad virtual 
mediante el envío de SPAM por correo electrónico. 


Las siguientes cifras son las verdaderamente importantes pues muestran que las 
empresas en cada uno de los tres estratos que utilizan SPAM tienen mayores 
ingresos, emplean a más gente y contribuyen con una mayor cantidad de dinero 
en cuanto a impuestos se refiere, esto se da porque hay más empresas que utilizan 
el SPAM de las que no lo hacen. Se debe tener en cuenta que al interior de los 
subgrupos (estratos y dominios) el coeficiente de variación es alto en parte por la 
discriminación y en parte porque la varianza de las nuevas variables. 


> E.STSI(Level,N,n,SPAM.si) 


>» » Income 

Grande Mediano Pequeño Total 
Total est 5.68787/1e+04 2.749070e+05 2.495593e+05 5.813450e+05 
Varianza  1.632250e+08 4.342108e+08 2.124806e+08 8.099164e+08 
cve 2.246175e+01 7.579918e+00 5.840982e+00 4.895377e+00 


>» ) Employees 

Grande Mediano Pequeño Total 
Total est 6.663714e+03 3.420759e+04 4.6213358e+04 8.708465e+04 
Varianza  2.510026e+06 7.93977/8e+06 8.154733e+06 1.860454e+07 
cve 2.377512e+01 8.237241e+00 6.179273e+00 4.952994e+00 


Rp 
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>» , Taxes 

Grande 
Total est 3195.500 
Varianza 5b86655.629 


23.969 


9 
6. 
cve 8 
> E.STSI(Level,N,n,SPAM. 
> » Income 

Grande 
Total est 4.554921e+04 
Varianza 1.848997e+08 
cve 2.985295e+01 


» ») Employees 


Mediano 


.209504e+03 


132710e+05 


.503348e+00 


no) 


2 
4 
9 


Mediano 
.117347e+05 
.140719e+08 
.610497e+00 


Pequeño 
3349.749049 
72204 .334593 
8.021754 


Pequeño 
.893957e+05 
.071224e+08 
.598775e+00 


Ne 


Total 
.575475e+04 
.272131e+06 
7.159032e+00 


pao 


Total 
.466796e+05 
.060941e+08 
.356189e+00 


Total 
.869956e+04 
.809731e+07 
.192315e+00 


Mediano 
.614253e+04 
.424198e+06 
.042263e+01 


Grande 
Total est 5.098571e+03 
Varianza 2.348367e+06 
cve 3.005623e+01 


Pequeño 
. 145846e+04 
.324746e+06 
.7102568e+00 6 


2 
7 
1 


>» , Taxes 

Total 
.227280e+04 
.325068e+06 


.379406e+00 


Mediano 
6962.55285 
541369 .25806 
10.56765 


Grande 
2691.57 
720262.40 
31.53 


Pequeño 
2618.676806 
63436 .086720 
9.618034 


1 
1 
9 


Total est 
Varianza 
cve 


Las siguientes tablas resumen las estimaciones de los dominios utilizando el ante- 
rior enfoque. Nótese que el valor de los coeficientes de variación es alto puesto que 
se trata de estimación en subgrupos poblacionales en donde el tamaño de muestra 
es aleatorio. 


Tabla 5.2: Estimación en el dominio SPAM SI. 


Variable Total poblacional Total estimado cve%  Desv.% 
Nd 1495 1390 3.89 -7,02 
Ingreso 637265 581345 4.89 -8.77 
Empleados 92350 87084 4.95 -5.70 
Impuestos 18061 15754 7.15 -12.77 

Tabla 5.3: Estimación en el dominio SPAM NO. 

Variable Total poblacional Total estimado cve%  Desv.% 
Nd 937 1006 7.36 5.38 
Ingreso 397752 446679 12.24 6.35 
Empleados 59600 68699 15.27 6.19 
Impuestos 10593 12272 15.85 9.37 


Esto muestra que la utilización del SPAM puede ser una estrategia de crecimiento 
en el sector industrial. Ahora, pensando un poco en la eficiencia de la estrategia 
de muestreo, consideremos la siguiente tabla de análisis de varianza para calcular 
el efecto de diseño usando el resultado 5.2.19. 
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> data(Lucy) 

> attach(Lucy) 

> anova(lm(Income”Level)) 
Analysis of Variance Table 


Response: Income 
Df Sum Sq Mean Sq F value PrOF) 


Level 2 129744890 64872445 3789.5 < 2.2e-16 »*rrx* 
Residuals 2393 40965657 17119 
El efecto de diseño estaría dado por E = 0.24. Por ello la eficiencia de la 


estrategia es cuatro veces mayor que una estrategia simple. Es interesante que 
un diseño tan sencillo como el simple en cada estrato con un tamaño de muestre 
pequeño arroje estos buenos resultados. 


Nótese que como N¿ es desconocido, para obtener otro tipo de estimación (aunque 
no la varianza ni el c.v.e) de la media de la característica de interés en cada 
dominio, podemos utilizar un estimador alternativo dado por 


Us pS ud => Ys Ydk a DS Yk 
NE Zdk Na 


Para ello, simplemente tomamos las estimaciones tya y las dividimos por la esti- 
mación de N4¿. 


Otro tipo de asignación 


Suponga que el gobierno quiera hacer una encuesta con las características y mag- 
nitudes de la anterior, pero con un limitante importante: el dinero, el gobierno 
tiene un presupuesto de 7000 dólares para la realización del estudio. Además de 
esto, el gobierno quiere que el método usado para la recolección de la información 
sea clásico. Es decir, un encuestador debe ir a cada empresa y realizar el cuestio- 
nario. Este caso es muy frecuente en encuestas de mercadeo, en donde se quiere 
lograr buenas estimaciones pero no se dispone de muchos recursos financieros ni 
logísticos. 


En este caso se ha averiguado que las varianzas de la variable ingreso son las 
siguientes 64398, 16081, 15142 en los estratos Grande, Mediano y Pequeño 
respectivamente. Además realizar una sola encuesta en el estrato de las empresas 
grandes cuesta alrededor de 40 dólares, una encuesta en el estrato de las empresas 
medianas cuesta 20 dólares y una entrevista en el estrato de las empresas pequeñas 
cuesta 15 dólares. Nótese la diferencia de precios en cada estrato, esto se debe a 
que es necesaria la contratación de encuestadores de alto perfil para las entrevistas 
en el estrato de las empresas grandes. 


Utilizando la asignación óptima y el resultado 5.2.8. se tienen los tamaños de 
muestra en cada estrato, dados por la tabla anterior, que minimizan la varianza 
del estimador de Horvitz-Thompson con la restricción del costo total del estudio, 
7000 dólares. Nótese que Y; _, npCp = 7000. 
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Tabla 5.4: Estimación del tamaño de muestra. 
Estrato Coste Nh  S2yuh nh 
Grande 40 83 64398 18 
Mediano 20 737 16081 112 
Pequeño 15 1576 15142 269 


5.3 Diseño de muestreo estratificado PPT 


Como se vio en la sección anterior, la ganancia de precisión al utilizar un diseño 
de muestreo estratificado es importante. Sin embargo, los resultados pueden me- 
jorarse al utilizar una característica continua auxiliar x, bien relacionada con la 
característica de interés y, en cada estrato. Así, es posible estimar el parámetro 
de interés mediante el estimador de Hansen-Hurwitz con una varianza pequeña. 
De hecho, entre mejor correlación exista entre y y 1, asumiendo que el compor- 
tamiento promedio de la variable de interés es diferente en cada estrato, menor 
varianza tendrá el estimador de Hansen-Hurwitz. 


En este caso, el marco de muestreo debe tener dos características auxiliares: una 
variable de estratificación y la información auxiliar continua, ambas disponibles 
para cada elemento en todos los estratos. Se supone que el diseño de muestreo 
dentro de cada estrato es con reemplazo y, de esta manera, se selecciona una 
muestra de tamaño my en cada estrato h (h =1,..., H). Cada elemento de k € U,, 
tiene probabilidad de selección igual a 


Pr = o si k € Un (5.3.1) 
zh 


con tp el total poblacional de la característica auxiliar x en el estrato U,. Es 
importante verificar que en cada estrato se cumpla 


Spy =1 para cada h=1,...,H, (5.3.2) 
Un 


por tanto 


H 
Y Y pp =H (5.3.3) 


h=1 Ur 


Ahora, en cada estrato U, de tamaño N,, se selecciona una muestra s, con reem- 
plazo de tamaño my,, por tanto la cardinalidad del soporte en el estrato U,, está 
dada por 
N,+mp-=1 
HQ; = ( : (5.3.4) 
Mr 
El soporte general estratificado, se define como la unión de los soportes en cada 
uno de los estratos U,,. 


H 
Qs U sh | sh€ o») (5.3.5) 
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5.3.1 Algoritmos de selección 


En la selección de las muestras PPT con reemplazo en cada estrato es posible 
utilizar los algoritmos de muestreo dados en el capítulo 3, de tal forma que los 
siguientes pasos se deben realizar: 


e Separar la población en H estratos mediante la variable de estratificación. 


e En cada estrato U,,, seleccionar una muestra PPT con reemplazo. Los algo- 
ritmos utilizados en la selección de la muestra dentro de cada estrato pueden 
ser los métodos acumulativo total o el método de Lahiri. 


e Cada una de las H selecciones es realizada de manera independiente. 


5.3.2 El estimador de Hansen-Hurwitz 


Con los anteriores condicionamiento, se utiliza el estimador de Hansen-Hurwitz 
para estimar de manera insesgada al parámetro de interés t,, con ayuda de infor- 
mación auxiliar continua en cada estrato U,,. 


Resultado 5.3.1. Si los elementos dentro del estrato Uj, son seleccionados con 
reemplazo, de acuerdo a probabilidades de selección tales que Y” U, Pr = 1, basados 
en tx, el valor de una característica auxiliar continua, entonces el estimador de 
Hansen-Hurwitz del total poblacional t, y, su varianza y su varianza estimada están 
dados por: 


Al tah Yki 
t 5.3.6 
yh,p mM 2, Dr ( ) 
kES» 
1 Yk a 

Var t == tel 5.3.7 
PPT(tyh,p) E 2.» E 0) (5.3.7) 

>. 1 R UYki 2 
t = ———————— e E 5.3.8 
Varppr(tynp) mp — 1) y (Ye im») ( ) 


¿=1 
kESh 
respectivamente, con pz dados por (5.3.1 . Nótese que Li es insesgado para el 
total ty» de la característica de interés y, y que Var pperÍ(tynp) es insesgado para 
Varppr(tyn p)- 


Resultado 5.3.2. Para un diseño de muestreo estratificado con selección de uni- 
dades PPT en cada estrato, el estimador de Hansen-Hurwitz del total poblacional 
t,, Su varianza y su varianza estimada están dados por: 
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H Mh 2 
om y 1 Uri ; 
Vargpprr(tynp) = > =D > (Ye loo) (5.3.11) 
h=1 i=1 ? 
kESh 


respectivamente. Nótese que e es insesgado para el total t,, de la característica 
de interés y, y que Vargppr(typ) es insesgado para Vargpprltyp). 


Ejemplo 5.3.1. Para nuestra población de ejemplo U particionada en 2 estratos 
como en el capítulo anterior, existen por un lado ra = 6 posibles mues- 
tras con reemplazo de tamaño mj = 2 en el primer estrato y por el otro lado 
pa ? a) = 2 posibles muestras con reemplazo de tamaño ma = 1 en el segundo 
estrato. Utilizando la característica auxiliar x, realice el cálculo léxico-gráfico del 


estimador de Hansen-Hurwitz y compruebe el insesgamiento y la varianza. 


5.3.3 Marco y Lucy 


En la pasada sección, supusimos que el marco de muestreo contenía, además de la 
ubicación e identificación de todas las empresas del sector industrial, una variable 
de estratificación llamada Nivel que agrupa a las empresas de acuerdo a su capaci- 
dad de producción industrial. Es lógico pensar que el comportamiento promedio de 
las características de interés es diferente en cada estrato. Siendo así los resultados 
obtenidos son más precisos que al realizar un plan de muestreo simple, además de 
obtener las estimaciones de las características de interés anidadas en los estratos. 


En esta ocasión, la construcción del marco de muestreo ha logrado incluir además 
de la variable de estratificación Nivel una información auxiliar continua, particu- 
larmente se supone que se tiene conocimiento del valor de ingreso declarado en el 
último año fiscal para cada empresa del sector industrial. 


Con este generoso marco de muestreo es claro que las estimaciones serán más 
precisas. Aunque vale la pena preguntarse si la eficiencia de las estimaciones me- 
jorará notablemente con estas dos variables auxiliares. Se utilizará la asignación 
proporcional, como en la sección pasada, para hacer los resultados comparables. 
No olvide que en cada estrato la selección de las muestras se hace con reemplazo. 


data (Lucy) 
attach (Lucy) 

m1 <- 14 

m2 <- 123 

m3 <- 263 

m <- c(m1,m2,m3) 


VMVVWvVOyvoyvVv oy 


La función S.STPPS(E,x,m) se utiliza para la extracción de las H muestras con 
reemplazo en cada estrato. Los argumentos de la función son los siguientes: E, la 
variable de estratificación en la población entera, en este caso particular es Nivel. 
x, un vector de información auxiliar continua conteniendo cada uno de los valores 
en la población, en este caso particular es Income. m, un vector conteniendo H 
tamaños de muestra para cada estrato. 


La función S.STPPS(E,x,m) divide el marco de muestreo en A estratos y en cada 
uno de ellos selecciona una muestra con reemplazo de acuerdo a probabilidades 
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de selección dadas por (5:31 El resultado de la función es en dos vías: por una 
parte, la función devuelve los índices de los elementos seleccionados con reemplazo 
en cada estrato y, por otra, devuelve el vector de probabilidades de selección de 
los elementos en la muestra. Cada una de las anteriores salidas es de tamaño 
m= No mp. Para este ejercicio el resultado de la función se ha guardado en el 
objeto res, la muestra en el objeto sam y el vector de probabilidades de selección 
en la muestra se ha guardado en el objeto pk. 


> res <- S.STPPS(Level,Income,m) 
> sam <- res[,1] 
> pk <- res[,2] 
> muestra <- Lucy[sam,] 
> attach(muestra) 
> muestra 

ID Ubication Level Zone Income Employees Taxes SPAM 
2344  AB1199 c25k67 Big B 1150 88 62.0 yes 
2369.1 AB748 c25k92 Big D 1300 172 68.0 yes 
2320  AB1038 c25k43 Big A 1044 90 52.0 yes 
1957 AB575 c20k76 Medium C 550 35 14.0 yes 


Aplicando los índices obtenido en sam al marco de muestreo, obtenemos la infor- 
mación para realizar el proceso de recolección de datos. Cuando la información 
es recolectada se creará un archivo de datos conteniendo cada uno de los valores 
de la(s) característica(s) de interés en la muestra seleccionada. Esta archivo es 
adjuntado a R mediante la función attach. 


La etapa de estimación se realiza con la función E. STPPS (y,pk,m,E) del paquete 
TeachingSampling cuyos argumentos son cuatro y cada uno de ellos contiene 
información a nivel de la muestra y nada más que de la muestra: y, el archivo de 
datos conteniendo cada uno de los valores de la(s) característica(s) de interés en 
la muestra seleccionada, en este caso particular será el data frame estima. pk 
el vector de probabilidades de selección resultante de aplicar la función S.STPPS 
en la etapa de selección de muestra, en esta caso particular guardado como pk 
<- res[,2].m, un vector conteniendo H tamaños de muestra para cada estrato, 
en este caso dado por m <- c(m1,m2,m3). E, la variable de estratificación en la 
muestra, en este caso particular es Level en la muestra no en la población. 


La función E.STPPS arroja la estimación de cada una de las características de 
interés discriminada por cada estrato y el gran total así como también la varianza 
estimada y el coeficiente de variación estimado. También arroja las estimaciones 
de los tamaños de los estratos N, y del tamaño de la población total dado por 
A ES 

N= Y 1 hu 


> estima <- data.frame(Income, Employees, Taxes) 
> E.STPPS(estima, pk, m, Level) 


5Esta función trata cada estrato como una población separada de modo que la suma de las 
probabilidades de selección en cada estrato suman uno y en toda la población suman H. 
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Grande 


Mediano 


Pequeño 


Total 


Total est 85.5308339 739.22157976 1.517982e+03 2.342734e+03 


Varianza 0.2224841 0.22805284 9.655518e-01 1.416089e+00 
cve 0.5514762  0.06460158 6.473233e-02 5.079515e-02 
>» » Income 

Grande Mediano Pequeño Total 
Total est 1.03706e+05 4.873510e+05 4.441600e+05 1.035217e+06 
Varianza  6.7//56e-26 8.033922e-27 2.170687e-27 7.798029e-26 
cve 2.51034e-16 1.839170e-17 1.048960e-17 2.697497e-17 
» ») Employees 

Grande Mediano Pequeño Total 
Total est 1.17441e+04 6.084383e+04 7.898202e+04 1.515700e+05 
Varianza  3.70116e+03 3.547822e+03 5.067016e+03 1.231601e+04 
cve 5.18021e-01 9.789587e-02 9.012554e-02 7.321868e-02 
>» , Taxes 

Grande Mediano Pequeño Total 

Total est 6040.0336101 1.630756e+04 6.234842e+03 2.858244e+04 
Varianza  3145.7857046 1.461127e+02 1.518736e+01 3.307086e+03 
cve 0.9285926 7.412334e-02 6.250514e-02 2.011979e-01 


Nótese que las estimaciones dentro de los estratos tienen un coeficiente de variación 
muy pequeño al igual que la estimación para la población total. La siguiente tabla 
muestra los resultados para este ejercicio particular. 


Tabla 5.5: Muestreo estratificado PPT: estimación de los totales de las caracterís- 
ticas de interés. 


Variable Total poblacional Total estimado cve%  Desv.% 

Ingreso 1035217 1035217 0.00 0.00 
Empleados 151950 151570 0.07 -0.25 
Impuestos 28654 28582 0.20 -0.25 


Es notable la ganancia en eficiencia de esta estrategia de muestreo, no hay mucho 
que decir al respecto. Simplemente se deben agotar hasta los últimos recursos 
para poder estratificar la población y aplicar un diseño de muestreo PPT en cada 
estrato, siempre y cuando la característica de interés esté bien correlacionada en 
cada estrato con la información auxiliar. 


5.4 Ejercicios 


5.1 Demuestre teóricamente o refute mediante un contraejemplo las siguientes 
afirmaciones: 


5.4. 
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5.2 


5.3 
5.4 
9.5 
5.6 


5.1 


(a) Para aplicar un diseño de muestreo estratificado se pide que los estratos no 
se traslapen. La anterior condición es necesaria para estimar la varianza 
del estimador. 


(b) La necesidad de estratificar surge siempre de razones administrativas. 


(c) Siempre un diseño de muestreo estratificado es de menor varianza que un 
diseño de muestreo que no incluya estratos. 


(d) En un diseño de muestreo estratificado, la estimación del promedio pobla- 
cional es el promedio de las estimaciones de los totales en cada estrato. 


(e) Explique una ventaja técnica para estratificar 
(f) Explique una ventaja logística para estratificar 


(g) Exponga detalladamente un ejemplo en donde para diferentes estratos se 
proponen diferentes diseños de muestreo. 


Escriba las fórmulas del estimador del total y del estimador de la varianza 
para los siguientes diseños de muestreo. Defina cada término y notación que 
utilice en las fórmulas. 


(a) Diseño estratificado con tres estratos: uno de inclusión forzosa, otro con 
diseño PPT y otro con diseño MAS. 


(b) Diseño estratificado con dos estratos: uno de inclusión forzosa, otro con 
diseño sistemático. 

(c) Diseño estratificado con cuatro estratos: uno de inclusión forzosa, otro con 
diseño bernoulli, con diseño MAS con reemplazo y otro con diseño Poisson 
proporcional a una característica de inormación auxiliar. 


(d) Diseño estratificado con tres estratos: todos con diseño rPT 


Realice el ejercicio lexicográfico del Ejemplo 5.1.1. 
Realice el ejercicio lexicográfico del Ejemplo 5.2.2. 
Realice el ejercicio lexicográfico del Ejemplo 5.3.1. 


Suponga una población de cuatro elementos U = (1, 2,3, 4) cuyos valores para 
la caraterística de interés son y; = ya = 0, y3 = 1, ya = —1. En primer lugar, 
calcule la varianza del estimador de la media poblacional para un diseño de 
muestreo aleatorio simple con tamaño de muestra n = 2. Luego, calcule la 
varianza del estimador de la media poblacional para un diseño de muestreo 
con dos estratos U, = (1,2) y Uz = (3,4) si dentro de cada estrato se planea 
un diseño aleatorio simple de tamaño uno. ¿Cuál varianza resultó ser más 
grande?. Explique 


Suponga que una población de municipios se divide en dos estratos, uno urbano 
y el otro rural. De todas los municipios en la población, siete (N¡ = 7) son 
ciudades y los restantes veiticinco (Na = 25) son distritos rurales. Se decide 
que se usará un diseño de muestreo estratificado de tamaño total n = 8. 
Teniendo en cuenta la siguiente tabla, determine tamaños de muestra en cada 
estrato de acuerdo a la afijación proporcional, afijación de Neyman y afijación 
óptima. 
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Estrato rural Estrato urbano | Población Total 
Media 283 1146 472 
Desv. Est. 331 1318 743 
Tamaño 25 7 32 
Costo por encuesta 5 pesos 2 pesos 3 pesos 


5.8 Calcule el estimador del total poblacional, el estimador de la media poblacio- 
nal, sus respectivos c.v.e. e intervalos de confianza para una estrategia de mues- 
treo que utiliza el estimador de Horvitz - Thompson y un diseño de muestreo 
aleatorio estratificado (H = 2). El tamaño del primer estrato es de N¡ = 105 
y el del segundo estrato es de Na = 19. Para el estrato uno, se seleccionó una 
muestra de n; = 11 elementos y para el estrato dos, se seleccionó una muestra 
de nz = 4 elementos. Use la siguiente información: 


Estrato h | Y, Yk_ >s, Yi 
1 1099 21855 
2 3446 1822736 


Capítulo 6 


Muestreo de conglomerados 


En encuestas complejas, los grupos poblacionales de elementos que se for- 
man naturalmente como barrios, municipios o escuelas pueden ser tratados 
como unidades de muestreo. Este tipo de esquemas de muestreo ayudan 
a aumentar el tamaño de muestra manteniendo el costo de la encuesta. 


Risto Lehtonen (2004) 


Las estrategias de muestreo para elementos tienen un común denominador: el mar- 
co de muestreo y su prolija identificación y ubicación de los elementos poblaciona- 
les, de todos y cada uno de ellos. Cabe resaltar que en la práctica no es muy común 
el uso de diseños de muestreo que seleccionen muestras de elementos directamente. 
Lo anterior se debe más a cuestiones financieras y logísticas que a problemas de 
eficiencia estadística. Piense en lo siguiente: cada investigación requiere un marco 
de muestreo. Son miles de millares las investigaciones realizadas al año y deberían 
existir tantos marcos de muestreo como investigaciones realizadas. Por cuestiones 
de tipo logístico la consecución de un marco de muestreo de elementos es muy 
costosa porque implicaría realizar un censo, enumerando, identificando y ubicando 
a cada elemento de la población y esto es, por supuesto, algo utópico. 


Pensando en el más sencillo de los diseños de muestreo, el costo financiero de rea- 
lizar un estudio mediante un diseño de muestreo aleatorio simple es muy elevado. 
Por ejemplo suponga que se desea realizar un estudio para evaluar la calidad de 
vida de las personas en un determinado país. Si llegara a existir un marco de 
muestreo de elementos, realizar (o seleccionar) una muestra aleatoria simple de- 
mandaría la contratación de un encuestador por cada persona encuestada, puesto 
que la dispersión geográfica natural de los elementos seleccionados en la muestra 
aleatoria simple sería demasiado alta. 


En el caso anterior, aunque se tuviera un marco de muestreo de elementos, el costo 
financiero de realizar una muestra aleatoria sería demasiado alto. Una forma de 
realizar muestras probabilísticas a falta de un marco de muestreo de elementos 
es seleccionar conglomeradod|| de elementos y realizar el proceso de medición en 
cada conglomerado. Cochran (1977) plantea que, por cuestiones logísticas, es más 
eficiente seleccionar una muestra de 20 bloques de hogares, cada bloque con 30 


l Agrupación natural de objetos 
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hogares, que seleccionar una muestra aleatoria de 600 hogares. En el primer caso 
sólo se necesitaría la presencia de un encuestador por bloque, mientras que en el 
segundo, posiblemente, se necesite la presencia de muchos más encuestadores. 


Siempre que se desee seleccionar una muestra probabilística se debe tener un mar- 
co de muestreo de manera obligatoria, en los casos en donde se carece de marco 
muestral es necesario construir uno. Sin embargo, el costo financiero y logístico 
de levantar un marco de muestreo para elementos es muy alto, en la mayoría de 
ocasiones. Una forma de construir marcos de muestreo de bajo costo es mediante 
la aplicación de un diseño de muestreo por conglomerados. Estos conglomerados 
tienen la ventaja de ser agrupaciones de elementos que se forman de manera na- 
tural y además existen entidades gubernamentales que se ocupan de registrar y 
actualizar la lista de conglomerados existentes en cada sector. Por ejemplo, existe 
una entidad encargada de la actualización de los sectores cartográficos de una ciu- 
dad, existe una entidad encargada de la actualización de los negocios en un sector, 
existe una entidad que recopila la información concerniente a la ubicación de las 
escuelas, etc. Para cada entidad existe también un registro de estas aglomeraciones 
y este será el marco de muestreo que se utilizará en la etapa de diseño. 


Por lo tanto, el marco de muestreo contendrá la ubicación e identificación de cada 
uno de los conglomerados de elementos existentes en la población. Con este marco 
de conglomerados, se aplica un diseño de muestreo y una muestra es seleccionada. 
Cada conglomerado seleccionado en la muestra es visitado y el proceso de medi- 
ción se realiza para todos los elementos pertenecientes al mismo. Entonces, si el 
conglomerado seleccionado es una sección cartográfica de la ciudad, se aplicará 
la encuesta a todos y cada uno de los elementos que conforman la sección. Si el 
conglomerado seleccionado es una escuela, se aplicará el instrumento de medición 
a todos y cada uno de los alumnos de la escuela. En otras palabras, se realiza un 
censo en cada conglomerado que haya sido seleccionado en la muestra. 


Por supuesto, existe una ganancia significativa en términos operativos, logísticos 
y financieros. Sin embargo, esta ganancia tiene un precio... el precio a pagar está 
dado en términos de eficiencia estadística de la estrategia de muestreo. Revisando 
un poco el proceso de aglomeración, hay que tener en cuenta que los conglomerados 
de elementos tienden, en la mayoría de los casos, a ser homogéneos con respecto a 
los valores de la característica de interés y. Lo anterior se da porque la agrupación 
se realiza de forma natural, es decir lo hogares, las secciones cartográficas, las villas, 
las escuelas, las prisiones, etc. tienden a formarse de manera natural y homogénea. 


De esta manera, la pérdida de eficiencia estadística es causada por el efecto de 
conglomerado que conlleva la selección de unidades homogéneas que no contienen 
información nueva sino, de alguna manera, repetida. ¿Qué nueva información se 
obtiene, acerca de la población, al añadir un nuevo elemento del mismo conglome- 
rado en la muestra? 


Entre más grande sea el tamaño de la sub-muestra en los conglomerados, entonces 
más grande será el efecto de diseño. Si dentro de cada conglomerado, el compor- 
tamiento de la característica de interés y reflejará el comportamiento estructural 
de la misma en la población, entonces la eficiencia de una estrategia de muestreo 
por conglomerados sería similar a la de una muestra aleatoria simple. Pero, en 
la práctica, la homogeneidad interna de los conglomerados aumenta el error de 
muestreo. 
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Un error, por desgracia demasiado frecuente, entre los investigadores neófitos es 
analizar una muestra por conglomerados como una muestra aleatoria simpld?] En 
general se tienen lo siguientes comentarios acerca del muestreo por conglomerados: 


e Utilizamos muestreo por conglomerados sí: 


1. La construcción de un marco de muestreo de elementos es muy difícil, 
muy costosa o imposible de conseguir. Enumerar abejas, enumerar clien- 
tes, enlistar árboles en un sector, enlistar hogares en los barrios conglo- 
merados (dispersión geográfica, reducción de costos). 


2. La población objetivo se encuentra muy dispersa (geográficamente) o 
aparece en agrupaciones naturales: familias, escuelas, etc. 


e Los elementos individuales de una población sólo participan en la muestra si 
pertenecen a un conglomerado incluido en la muestra. 


e El muestreo estratificado aumenta la precisión de las estimaciones, mientras 
que el muestreo por conglomerados tiende a disminuirla. Es un precio que 
se paga al no poseer un marco de muestreo definido para los elementos de la 
población objetivo. 


e Al obtener una muestra de elementos que pertenecen a un conglomerado 
repetimos la información del conglomerado (dada la agrupación natural). Lo 
ideal es conseguir información nueva en cada individuo, por lo anterior se 
pierde precisión en las estimaciones. 
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Suponga que la población de elementos 
U= AL. doit N do 


se divide en V7 sub-grupos poblacionales, llamados conglomerados y denotados 
como U, =4(U;,...,Un,). 


La población de conglomerados estará dada, sin pérdida de generalidad, por 
Ur =[1,...,N7p 
Estos definen una partición de la población en tal forma que 
1. U=U/ Us 
2. U¿fUs =0 para todo 4% 


El número de unidades N, en el conglomerado ¿-ésimo se llama tamaño del 
conglomerado tal que 
Ni 
N=YM, 
¿=1 


2No es prudente, ni correcto analizar una muestra por conglomerados como si fuera una 
muestra aleatoria simple porque los errores estándar serán mayores y la interpretación de los 
resultados será errónea. 
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donde N es el tamaño de la población U. Con la población dividida en N, conglo- 
merados, los parámetros poblacionales de interés pueden escribirse como: 


1. El total poblacional, 


Ni NI 
E y de => ty (6.1.1) 
keU 1=1 k€U, i=1 


donde tyi = rev, yx es el total del ¿-ésimo conglomerado. 


2. La media poblacional, 


Yreu Yk 1% e 
Vii PELA => NY 6.1.2 
Ju Ny WN 2 2 yo 2 y (6.1.2) 


1 
donde y; = ñA rev, Y es la media del ¿-ésimo conglomerado. 
: : 


El esquema general del diseño de muestreo por conglomerados está definido de la 
siguiente forma 


1. Seleccionar una muestra probabilística s]?|de conglomerados de la población 
U¡ mediante un diseño de muestreo tal que 


Pr(S; = s1) = pr(s1) para todo s7 € Q;7. (6.1.3) 


donde (Y, es el soporte conteniendo todas las posibles muestras de conglo- 
merados. 


2. Todos y cada uno de los elementos pertenecientes a los conglomerados selec- 
cionados son observados y medidos. 


El tamaño de la muestra aleatoria de conglomerados está dado por 


1. n(S,) =n1 si la muestra es de tamaño fijo, n(S/) si la muestra es de tamaño 
variable 


2. n(S7) = my si la muestra es seleccionada con reemplazo 


La muestra aleatoria de elementos viene caracterizada por 


8= |, (6.1.4) 


1€S1 


y el tamaño de la muestrd'] de elementos por 


3Nótese que si sí; representa la muestra realizada de conglomerados, entonces S7 representa 
la muestra aleatoria la cual es una variable aleatoria. 

¿Dado que, por lo general, el tamaño de los conglomerados varía, se tiene que n(S) es gene- 
ralmente aleatorio incluso si n(S,) es de tamaño fijo. 
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n(S) = YN; (6.1.5) 


1€S1 


Si es posible construir o definir un soporte Qy, también será posible definir (al 
menos teóricamente) un soporte general (Y) de elementos conteniendo las posibles 
muestras de elementos pertenecientes a los conglomerados seleccionados. 


Ejemplo 6.1.1. Nuestra población ejemplo U dada por 
U = [ Yves, Ken, Erik, Sharon, Leslie) 

se divide en tres conglomerados de la siguiente forma 

U, = (Yves, Ken) 
el segundo conformado por 

Us = (Erik,Sharon) 
y el último conglomerado dado por 

Uz = (Leslie) 


Es claro que, en este caso particular, se tienen N7 = 3 conglomerados de tamaño 
diferentes. De esta manera, la población de conglomerados queda definida por 


U, = (U;,,U2, U3) 


Suponga que se selecciona una muestra s; de conglomerados de tamaño n; = 2. La 
definición del soporte Q, en R se hace mediante el uso de la función Support del 
paquete TeachingSampling aplicada a la información a nivel de los conglomerados 
de la siguiente manera. 


>U <- c("Yves", "Ken", "Erik", "Sharon", "Leslie") 
> U1 <- c("Yves", "Ken") 

>U2 <- c("Erik", "Sharon") 

> U3 <- c("Leslie") 

> UI <- c("Ul " 5 "2 " > "31 


> Ni <- length(U1l) 
> N2 <- length(U2) 
> N3 <- length(U3) 


> tyl <- sum(32,34) 
> ty2 <- sum(46,89) 
> ty3 <- sum(35) 


> tyl <- c(ty1,ty2,ty3) 
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> ty <-  sum(ty1l,ty2,ty3) 


> QI <- Support(NI,nI,Ul) 


> Q1 
$m $muestras 

[,1] [,2] [,1] [,2] 
[| 1 2 [1,] "v1" "y2" 
[2,] 1 3 ES 204 9y3" 
[3,1 2 3 [3,] "U2" "U3" 


Suponga que se selecciona una muestra s; de conglomerados de tamaño my = 2. 
Defina el soporte Q/ de conglomerados y el soporte (2 de elementos si la selección 
de la muestra es con reemplazo. 


6.1.1 El estimador de Horvitz-Thompson 


Nótese que en el esquema general del muestreo por conglomerados, se utiliza un 
diseño de muestreo para la selección de los conglomerados en la muestra. Este 
diseño de muestreo pr(s,) puede ser cualquiera de los diseños vistos en los capítulos 
anteriores, aplicados a la selección, esta vez no de elementos, sino de conglomera- 
dos. En general, dado el soporte Q1, pr(s/) puede ser: 


e Sin reemplazo: si todas las posibles muestras en (7 son sin reemplazo. 
Muestreo aleatorio simple, Bernoulli, Sistemático, Poisson, PT o estratifi- 
cado simple. 


e Con reemplazo: si todas las posibles muestras en (7 son con reemplazo. 
Muestreo aleatorio simple con reemplazo o muestreo PP'T. 


e De tamano fijo: si todas las posibles muestras en Q tienen el mismo tamaño 
de muestra n(S]) =nN7. 


Nótese que el diseño de muestreo pr(s7) induce probabilidades de inclusión sobre 
los conglomerados las cuales están definidas como sigue a continuación. 


Definición 6.1.1. La probabilidad de inclusión del conglomerado i-ésimo está 
dada por 


mr =Pr(i € 81) = ) > pr(sr). (6.1.6) 


sii 
mientras que la probabilidad de inclusión de los conglomerados ¿-ésimo y j-ésimo 
están dadas por 
Trj=Pr(ieSiyjesi)= Y prísr). (6.1.7) 
SIDiyj 


respectivamente. Por supuesto, Tri = TIi- 
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Asimismo, debido a la naturaleza jerárquica de la agrupación de elementos en los 
conglomerados, el siguiente resultado muestra las probabilidades de inclusión al 
nivel de los elementos de la población. 


Resultado 6.1.1. La probabilidad de que el k-ésimo elemento, sea incluido en la 
muestra S está dada por 

Tk = Ti sik€U; (6.1.8) 
Por otro lado, la probabilidad de inclusión de los elementos k-ésimo y l-ésimo está 
dada por 

Tli> si k,l € Us, 

Tkl = (6.1.9) 
Tlij> sik€U;,l€ Uj,1 e 


Una vez definidas las probabilidades de inclusión se define la estrategia de muestreo 
con el uso del estimador de Horvitz-T'hompson, dado por el siguiente resultado 


Resultado 6.1.2. Bajo un diseño de muestreo por conglomerados, el estimador 
de Horvitz-T'hompson para el total t,, su varianza y su varianza estimada están 
dados por 


A tui 
=D. E (6.1.10) 
1€S1 


Var, (£ 2224 1 (6.1.11) 


Var, (é EL lui tos (6.1.12) 
S1 


Tlij Tli TIj 


respectivamente, con Ayi¿= Trij — TIiTTIj y tyi el total del ¿-ésimo conglomerado 
seleccionado. Nótese que t,, es insesgado para ty y que Var: (t, ) es insesgado 
para Var1 (tr). 


Prueba. Para el estimador, se tiene que 


lar) 


kesS 


A 


1€S71 ke U, 


- Nm 


1€S1 keU; 


Para el cálculo de la varianza es necesario verificar que 


Tri — TE, sik,l € Us; 


Truij—= TT, sikeU;,leUjyiA4j (6.1.13) 


Aj = Arij = ( 
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Entonces se tiene que 


Var1 (tx) = y y A 


keU leU 


-DN EM 


1€U] ke U; ¡€U1 1€U; 


=_ An PO 


15 TI; 
1€U] jEU1 keU; 1€U; 
t 4 . 
yi ly 
= Y Y Ary E 
Ur Tili Tij 
Se procede análogamente para la estimación de la varianza. mn 


Resultado 6.1.3. Si el diseño de muestreo pi(s1) es de tamaño fijo, la varianza 
del estimador de Horvitz-Thompson y su varianza estimada toman la siguiente 
forma 


2 
Var2(tyn) = ¿LA (e a >) (6.1.14) 


TIj 
Va ¡te teta 615) 
ar =-—- alos 
al TlIij TIi TIjl 


Nótese que Varo e) es insesgado para Vara(t,.n). 


Prueba. La demostración de los anteriores resultados es inmediata siguiendo los 
lineamentos de la sección del estimador de Horvitz-T'hompson del segundo capítulo 
y notando que ty => y, tyi- n 


Al respecto de la construcción del estimador de Horvitz-Thompson bajo muestreo 
en conglomerados, Bautista (1998) deduce que 


1. La eficiencia de la estrategia de muestreo toma su máximo valor cuando los 


tai ; 
valores - son constantes para todo ¿=1,...,N7. 
Mii 
2. Cuando el diseño por conglomerados es tal que asigna probabilidades de in- 
clusión idénticas a cada conglomerado, la estrategia pierde eficiencia, a menos 
que el comportamiento de los totales de cada conglomerado sea similar. 


Los anteriores comentarios nos llevan a preferir diseños de muestreo que asignen 
probabilidades de inclusión proporcionales al tamaño del conglomerado. Para esto 
se debería disponer de información auxiliar continua disponible para toda la po- 
blación U¡ que estuviera bien correlacionada con los totales de la característica de 
interés en cada conglomerado t,;. En otras palabras, nuestro marco de muestreo 
es de conglomerados; por tanto, si x representa la información auxiliar continua 
y tai el total de la información auxiliar en el ¿-ésimo conglomerado, la correlación 
entre ty; y ty; debería ser bastante fuerte y las probabilidades de inclusión de los 
conglomerados deberían corresponder a la siguiente forma funcional: 
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Tr =n 2 (6.1.16) 
Ejemplo 6.1.2. Nuestra población ejemplo U, dada por 
U¡=(U1, Uz, Uz) 


Suponga que se selecciona una muestra s; de conglomerados de tamaño n, = 2 
mediante un diseño de muestreo sin reemplazo tal que 


0.5, si s,=[U¡,U2), 
pr(sr)=3 0.4, si s¡=(U,,U3), 
0.1, si s,=(Uz,U3z) 


Mediante el siguiente ejercicio léxico-gráfico se comprueba el insesgamiento del 
estimador de Horvitz-T'hompson en R. Para esto utilizamos las funciones Ik y Pik 
del paquete TeachingSampling a nivel de los conglomerados. 


NA 


p <- c(0.5, 0.4, 0.1) 
> Ind <- Ik(NI,nlI) 
> data.frame(Q1,p,Ind) 


X1X2  p Tod 1 EE 
1 U1 U2 0.5 1 4 0 
2 U1 U3 0.4 1 0 1 
3 U2 U3 0.1 0 1 1 


> pil <- Pik(p,Ind) 
> pil 
[1] 0.9 0.6 0.5 


De esta manera, la probabilidad de inclusión más alta la tiene el conglomerado 
Ui¡ y la más baja corresponde al conglomerado Uz. Con esto podemos calcular la 
estimación mediante el uso de la función HT del paquete TeachingSampling. 


x1X2 p  pi.ipi.j ty.i ty.]j est 
1 U'1U20.5 0.9 0.6 66 135 298 .3333 
2U1U30.4 0.9 0.5 66 35 143.3333 
3U2U30.1 0.6 0.5 135 35 295.0000 


> sum(p*est) 
[1] 236 


Una vez más, nótese que en la estimación intervienen las cantidades de los conglo- 
merados seleccionados en la muestra realizada. 
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Estimación de otros parámetros 


Si el tamaño poblacional N es conocido, la media poblacional definida en (2.1.14) 
puede ser estimada con el estimador de Horvitz-Thompson. 


Resultado 6.1.4. En muestreo por conglomerado la media poblacional es estima- 
da insesgadamente mediante el uso del estimador de Horvitz-Thompson 


a Lo 
Ya = 55 (Eu) (6.1.17) 
1 tui 
1€S1 


Una de las razones por las que se utiliza el muestreo por conglomerados es la 
falta de un marco de muestreo para elementos. En este caso el desconocimiento 
del tamaño poblacional es muy típico. Sin embargo, utilizando los principios del 
estimador de Horvitz-T'hompson, es posible estimar el tamaño de la población 
escribiéndolo como 


N=>» MN; (6.1.19) 
1€U1 
Luego, tenemos el siguiente resultado. 


Resultado 6.1.5. En muestreo por conglomerados el tamaño poblacional es esti- 
mado insesgadamente mediante el uso de la siguiente expresión 


á Ni 
N= Y E (6.1.20) 
1€S1 


Una vez el tamaño de la población es estimado, es posible utilizar la razón de 
Hájek (Hájek 1971) para estimar la media poblacional de la siguiente manera. 


= 7 6.1.21 

ds = ( ) 
tyi 

— Lies mes ra (6.1.22) 
Dies, Er 


De hecho, en algunas ocasiones, cuando el diseño de muestreo utilizado induce pro- 
babilidades de inclusión desiguales, es mejor utilizar este estimador aun conociendo 
el tamaño poblacional. 


6.1.2 El estimador de Hansen-Hurwitz 


Si la selección de los conglomerados se hace con reemplazo, ya sea utilizando un 
diseño de muestreo aleatorio simple con reemplazo o, en el caso de tener informa- 
ción auxiliar continua a nivel de los conglomerados, haciendo uso de un diseño de 
muestreo PPT, es posible utilizar los principios del estimador de Hansen-Hurwitz 
para completar la estrategia de muestreo. 


6.1. Fundamentos teóricos y notación 209 


En caso de tener acceso a información auxiliar continua, las probabilidad de selec- 
ción del ¿-ésimo conglomerado estaría dada por 


p==> (6.1.23) 


Sampath (2001) afirma que en caso de conocerse los tamaños N; de cada cluster 
1=1,..., N7, estos mismos pueden ser utilizados como medidas de tamaño para 
desarrollar un plan de muestreo con probabilidades proporcionales. El esquema 
general del muestreo con reemplazo toma la siguiente forma: 


e Para cada conglomerado de la población Uy, existen números positivos p71,... 


tales que 
S pr; =1. 
Ur 


Estas probabilidades no son necesariamente iguales. 


e Para seleccionar el primer elemento que pertenecerá a la muestra de tamaño 
mr, se lleva a cabo un sorteo aleatorio de tal forma que 


Pr(Seleccionar el conglomerado ¿) = pr;, ¿€ Ujz. 


e El conglomerado seleccionado es reemplazado en la población y vuelve a ser 
parte del próximo sorteo aleatorio con la misma probabilidad de selección. 
En total se realizan m7 sorteos aleatorios independientes. 


Nótese que el sorteo aleatorio se realiza entre los conglomerados, y no entre los 
elementos; por lo tanto, bajo muestreo en conglomerados no tiene sentido hablar 
de la probabilidad de selección de un elemento. Una vez que las probabilidades de 
selección de los conglomerados están definidas, utilizamos el estimador de Hansen- 
Hurwitz para estimar los parámetros de interés. 


Resultado 6.1.6. Bajo un diseño de muestreo por conglomerados, el estimador 
de Hansen-Hurwitz para el total t,,, su varianza y su varianza estimada están dados 
por 


A Li toi 
tuo = == Y (6.1.24) 
Mi 1 Plis 
1 N; % 2 
Var(typ) = e S pri (me = ,) (6.1.25) 


A 1 mi bh. A 2 
Var(t _ A 6.1.26 
Us») mi(m] — 1) 2 Ce 60) ) 


respectivamente. Nótese que en es insesgado para ty y que Var(f,») es insesgado 
para Var(t, p). 


Prueba. La demostración del resultado sigue los mismos argumentos de la sec- 
ción del estimador de Hansen-Hurwitz del segundo capítulo y del resultado 2.2.11, 
definiendo la variable aleatoria Z,, como 


Zo=t/pm  €U, v=1,...,m (6.1.27) 


PIN; 
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y notando que 
Pr(Z, = tyi/Pri) = Pri (6.1.28) 
A 


Cochran (1977) afirma que el método de selección de muestras con reemplazo es 
equivalente al problema estándar de probabilidad en el cual m7 bolas son deposita- 
das en N, cajas, la probabilidad de que una bola sea depositada en la ¿-ésima caja 
está dada por Z, en cada oportunidad. De esta manera, la distribución conjunta 
de ny (s 2Pl está dada por una expresión multinomial. 


Definición 6.1.2. De manera general, un diseño de muestreo con reemplazo de 
conglomerados se define como 


mp! niri(sr) . . E 
AN 


0, en otro caso 


Ejemplo 6.1.3. Nuestra población ejemplo U¡ dada por 
U¡ =(U1, U2, Uz) 


Suponga que se selecciona una muestra sí; con reemplazo de conglomerados de 
tamaño my, = 2 mediante un diseño de muestreo que asigna las siguientes proba- 
bilidades de selección a cada conglomerado. 


0.80, sii=1, 
pr =%40.15, sii=2, 
0.05, sii=3. 


Para seleccionar una muestra con reemplazo de la población Uz de tamaño mi = 2 
conglomerados se utiliza la función sample cuyo argumento replace debe aparecer 
igual a TRUE. Para esto definimos las probabilidades de selección de cada conglo- 
merado. 


> UI <- c("U1","U2","U3") 


> NI=3 

> mI=2 

> pli <- c(0.8, 0.15, 0.05) 

> sam <- sample(NI, mI, replace=TRUE, prob=pli) 
>mI  <- Ul[saml 

> ml 

Cudr vga Pan 


En este caso particular la muestra con reemplazo está compuesta por Uz y, como 
era de esperarse, por tener la más alta probabilidad de selección, por U¡. Para 
estimar el total poblacional, utilizamos la función HH del paquete muestreo con 
los totales de los conglomerados seleccionados y sus respectivas probabilidades de 
selección. 

5 


nri(s1) se define como el número de veces que el conglomerado ¿-ésimo es seleccionado en 
una muestra probabilística de tamaño m7. Note que n7¿(s7,) toma valores 0,1,2,...,mp. 
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> tyim <- tylIlsaml 
> tyim 

[1] 66 35 

> plim <- plilsaml 


> data.frame(ml,plim,tyim) 
ml plim tyim 

1 U 0.80 66 

2 U3 0.05 35 


> HH(tyim,plim) [1] 
[,1] 
[1,] 391.25 


6.2 Muestreo aleatorio simple de conglomerados 


En esta sección se introducen los principios del diseño de muestreo por conglome- 
rados bajo el plan de muestreo más sencillo. La muestra s7 de n7 conglomerados 
es seleccionada mediante un diseño de muestreo aleatorio simple sin reemplazo. 
Como se verá a lo largo de la sección, no hay nuevos principios (ni en el diseño 
de muestreo ni en el desarrollo del estimador) involucrados en la construcción de 
la estrategia de muestreo, la demostración de los resultados se hace siguiendo las 
pautas expuestas en el capítulo 2. 


Este diseño de muestreo asume que el comportamiento del total de la característica 
de interés es constante en cada uno de los conglomerados. En la práctica esta 
situación se presenta en muy pocas ocasiones, es por esto que este diseño pierde 
precisión, en la mayoría de ocasiones, ante el muestreo aleatorio simple. Para que 
este diseño de muestreo sea más eficiente el valor promedio de la característica de 
interés en cada cluster yy, debería ser proporcional a A . Se asume que la población 
U; está dividida en N7 conglomerados (no necesariamente del mismo tamaño). La 
muestra sin reemplazo es seleccionada de acuerdo al diseño de muestreo dada en 
la siguiente definición. 


Definición 6.2.1. Un diseño de muestreo se dice aleatorio simple para conglome- 
rados si todas las posibles muestras de tamaño nj tienen la misma probabilidad 
de ser seleccionadas. Así, 

+= sisi =n 
(5) I I 
¡eee 

0 en otro caso 


pr(s1) = (6.2.1) 


Una vez que la muestra de conglomerados s, es seleccionada se dispone a realizar 
una enumeración completa y la respectiva medición y observación de todos y cada 
uno de los elementos pertenecientes a cada conglomerado seleccionado. 


6.2.1 Algoritmos de selección 


En la selección de las muestras de conglomerados sin reemplazo es posible utilizar 
los algoritmos de muestreo dados en el capítulo 2, de tal forma que los siguientes 
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pasos se deben realizar: 


e Separar la población en N7 conglomerados mediante el marco de muestreo 
de conglomerados. 


e Realizar una selección de n7 conglomerados mediante cualquiera de los méto- 
dos expuestos en la sección 3.2.1; es decir, por el método coordinado negativo 
o por el método de Fan-Muller-Rezucha. 


6.2.2 El estimador de Horvitz-Thompson 


Siguiendo el resultado 6.1.1. las probabilidades de inclusión están dadas por el 
siguiente resultado. 


Resultado 6.2.1. Para un diseño de muestreo aleatorio de conglomerados, las 
probabilidades de inclusión de primer y segundo orden de los conglomerados están 
dadas por 


NI 


I 
a == niín —= 1) 
TMlij — NN a 1) (6.2.3) 


respectivamente. 


Resultado 6.2.2. El tamaño de la muestra de elemento s es aleatorio y su espe- 
ranza está dada por 


E(n(s)) =N (6.2.4) 


Prueba. De la definición de tamaño de muestra esperado, se tiene que 


E(n(S)) = E (E ») = y No = A (6.2.5) 


Se sigue del resultado 6.1.2 que la estrategia de muestreo se construye median- 
te el uso del estimador de Horvitz-Thompson que bajo este diseño de muestreo 
particular toma la forma del siguiente resultado. 


Resultado 6.2.3. Para un diseño de muestreo aleatorio de conglomerados, el 
estimador de Horvitz-T'hompson del total poblacional t,,, su varianza y su varianza 
estimada están dados por 


A N; 
tun = 7 2 to (6.2.6) 
I 
2 N? n 
Varmacltyn) = E ( = 7) am (6.2.7) 


— A N? 
Varmacityn) => ( = 5) se (6.2.8) 
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respectivamente, con e y Sé, el estimador de la varianza de los totales de los 
dy al 
conglomerados para la característica de interés en el universo U¡ y en la muestra 


sr. Esto es i 
Su, Ni =1 > tas 


donde ty, = . tyi/N1, y es se define de manera análoga. Nótese que ty, 
es insesgado para el total poblacional t, de la característica de interés y, y que 
Varmacityn) es insesgado para Varmaclty,r). 


Nótese que el diseño de muestreo sistemático en un caso especial del muestreo 
aleatorio de conglomerados cuando se selecciona una muestra s¡ de tamaño igual 
an, = 1. Al igual que en muestreo sistemático no se tiene un estimador de la 
varianza cuando se selecciona sólo un conglomerado. 


Ejemplo 6.2.1. Siguiendo con nuestra población ejemplo Uz, existen (0) = 


(3) = 3 posibles muestras de tamaño m, = 2. Realice el cálculo léxico-gráfico 
del estimador de Horvitz-Thompson y compruebe el insesgamiento y la varianza 


mediante este diseño de muestreo. 


Tamaño de muestra 


Bajo muestreo aleatorio de conglomerados se utilizan los mismos principios de 
la estimación del tamaño de muestra en muestreo aleatorio simple reemplazando 
las cantidades correspondientes de la población de elementos por la población de 
conglomerados U¡. De tal forma que si requiere estimar el tamaño de muestra dada 
una precisión absoluta c se tiene: 


ñIO 
2 2 
E a/2,0,-1 yu, % , NE 
con No = 5 . En algunas ocasiones se quiere lograr una precisión 
Cc 
relativa k, por tanto: 
RIO 
ajo nm 1€V? , ., 
con no = == ——. Nótese que dado que la población de conglomerados 


es pequeña, en la mayoría de los casos, es preferible suponer que el estimador sigue 
una distribución t-student con N; — 1 grados de libertad. 


6.2.3 Eficiencia de la estrategia 


A lo largo del capítulo se ha mencionado que la eficiencia de esta estrategia de 
muestreo es menor que la del muestreo aleatorio simple sin reemplazo. Intuitiva- 
mente se sospecha que, dado que la formación de grupos se presenta en forma 
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natural en la mayoría de los casos, la información de los conglomerados, con res- 
pecto al comportamiento estructural de la característica de interés, es homogénea 
dentro de cada uno de ellos. 


Para corroborar las anteriores afirmaciones vamos a medir la eficiencia de la es- 
trategia utilizando el efecto de diseño. Sin embargo, para unificar el tamaño de la 
muestra en esta estrategia se supondrá que: 


1. La población U; está conformada por N7 conglomerados. 


2. Cada conglomerado es de tamaño M. Luego 4U, = M  i=1,...,N7, 
además la población de elementos U es de tamaño N = M x N7. 


3. Se selecciona una muestra s, de tamaño igual a n7 conglomerados. De esta 
forma se han seleccionado en la muestra M x ny elementos. 


Tabla 6.1: Tabla de ANOVA inducida por el muestreo aleatorio de conglomerados. 


Fuente el Suma de cuadrados Cuadrado medio 
SCE 
Entre Nij-1 SCE=YN",M(%u,-u) 
N¡-1 
N M 0 SCD 
Dentro NiM=N, SCD=>72; j=1 (yis = Yus) N¡M-—N; 
Total NiM-—1 SCT = NE a (Yij — Ju) de 


Los resultados podrán ser comparables si se supone que una muestra de n, conglo- 
merados es seleccionada de acuerdo a un diseño aleatorio simple de conglomerados. 
Por otro lado, se supone que se selecciona una muestra de M x ny elementos direc- 
tamente de la población U. Cada vez que la población es dividida en sub-grupos 
poblacionales es muy útil recurrir a la tabla de análisis de varianza que esta vez 
toma la forma dada en la tabla 6.1. 


Resultado 6.2.4. Utilizando los resultados de la descomposición de las sumas de 
cuadrados, la varianza de la estrategia por conglomerados toma la siguiente forma 
NT M SCE 
Ni Ni-1 


E N?2 
Varmacltyn) = E ( 


(6.2.11) 


mientras que la varianza de la estrategia aleatoria simple, con un tamaño pobla- 
cional igual a N = M x Ny elementos y un tamaño de muestra igual an = Mxn;, 
elementos, se puede escribir como 


a N? n SCT 
Varmasltyrn) = a ( 7) Mam =1 (6.2.12) 


Prueba. Para la varianza de la estrategia por conglomerados se tiene 


SCE NN, M? (Gu, — Guy 


M = 
N,-1 N,-1 
N 7 2 
En Di=1 (tyi — tyu,) 
Ni-1 


2 
tyuy 
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donde yy, y tys es el promedio y el total del ¿-ésimo conglomerado, respectivamente 


> 


ls Nr, 
y tyu, = La es el promedio de los totales de los conglomerados. 


Para la varianza de la estrategia aleatoria simple sólo hay que notar que 


N? (1 a _ (MN? ( e) 


n N Mn MN; 


Note que si SCE es alta, entonces la estrategia será menos eficiente. En la práctica 
es esto lo que ocurre exactamente pues dada la agrupación natural de elementos, 
el comportamiento de la característica de interés será similar dentro de cada con- 
glomerado. Por tanto, SCE será elevada pues en forma general los conglomerados 
presentarán un comportamiento heterogéneo. Para verlo con más claridad, se de- 
fine el coeficiente de correlación intra-clase como 


M SCD 
M-1SCT 


p= (6.2.13) 
Esta medida toma valores positivos si los elementos dentro de los conglomerados 
tienen un comportamiento similar y negativo cuando el comportamiento de los 
elementos dentro de los conglomerados es muy disperso. Además, el coeficiente 
informa qué tan similares son los elementos dentro de los conglomerados y pro- 
porciona una medida de homogeneidad dentro de los conglomerados y nos da una 
realidad más detallada en cuanto al efecto de diseño y pérdida de eficiencia en el 
muestreo aleatorio de conglomerados como lo afirma el siguiente resultado. 


Resultado 6.2.5. El efecto de diseño en muestreo aleatorio de conglomerados 
está dado por 
Varmactr 


Deff = 21+(M-1)p (6.2.14) 


Varmastr 


Prueba. La aproximación se tiene si se supone que N7, el número total de con- 
glomerados, es grande tal que 


M(N¡-1) 2 MN¿-1 (6.2.15) 


La demostración se completa notando que al realizar el cociente de varianzas, al 
igual que en la sección del muestreo sistemático, se tiene que 
SCE  1+(M-1)p 
Ber — M 


(6.2.16) 


Dado que p es generalmente positivd?] podemos inferir de (6.2.14) que el muestreo 
por conglomerados tendrá una mayor varianza que el muestreo aleatorio simple 


SEsto se da porque los conglomerados se forman física y geográficamente como agrupaciones 
contiguas de elementos que comparten un ambiente natural, entonces el comportamiento de los 
elementos internamente será similar. 
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de elementos directamente de la población U. Sin embargo, es plausible sacrificar 
la eficiencia estadística por el ahorro financiero y logístico característico de las 
estrategias por conglomerados. Ahora, si p es negativo, esta estrategia gana en 
eficiencia y también en costos operativos. 


Lohr (2000) afirma que en el caso, muy común en la práctica, en que los conglo- 
merados no sean del mismo tamaño, una medida alternativa a p es el coeficiente 
de determinación R? definido como 


CMD 
R?*=1- == (6.2.17) 
Syy 
donde CMD = 22: con N el número total de elementos en la población U. 


N=N1 
Ésta es una medida muy conocida y utilizada en el análisis de regresión lineal, 
y es interpretada como la cantidad de variabilidad explicada por los promedios 
de cada conglomerado. Si el comportamiento de la característica de interés es 
homogéneo dentro de los conglomerados, entonces los promedios entre los conglo- 
merados tendrán una muy alta dispersión con respecto a la variación dentro de los 
conglomerados y R? tomará valores grandes. 


6.2.4 Marco I y Lucy 


El común denominador de las aplicaciones prácticas con Marco y Lucy en los 
capítulos anteriores ha sido la identificación y ubicación, a priori, de cada una de 
las empresas en el sector industrial. Esto ha sido posible gracias a que un marco 
de muestreo de elementos estuvo disponible. En algunas ocasiones, el marco de 
muestreo disponible mostró bondades que permitieron la incorporación de infor- 
mación auxiliar, ya sea de tipo continuo o categórico, para mejorar la eficiencia de 
la estrategia de muestreo utilizada en cada caso. 


En cualquier caso, el gobierno desea obtener estimaciones precisas que le permitan 
fortalecer sus políticas de apoyo y financiamiento de las empresas en el sector 
industrial. Sin embargo, el gobierno no está en disposición de entregar una lista de 
todas las empresas del sector industrial con su respectiva identificación y ubicación 
debido a políticas de confidencialidad que no le permiten brindar este tipo de 
información. Por tanto, en esta ocasión no hay tal marco generoso de elementos 
en la población y el estudio se deberá llevar a cabo con esta restricción de tipo 
logístico. 


En cualquier estudio por muestreo, siempre debe existir, si no físicamente al menos 
de forma implícita, un marco de muestreo de la población que permita llegar a la 
medición de la unidad objetivo de muestreo. Dado que el gobierno no permite la 
utilización de un marco de muestreo de empresas en el sector industrial, se debe 
realizar el levantamiento de un marco de muestreo de conglomerados que agrupen 
estas empresas. Una solución, que es muy utilizada en la práctica, es realizar 
un muestreo de áreas geográficas. Las empresas, las viviendas, los domicilios, los 
negocios, etc. están ubicadas en algún lugar del mapa y es poco factible que se 
muevan de donde han estado instaladas. Por tanto, un marco de muestreo por 
áreas es una buena solución de tipo logístico para enfrentar la etapa de diseño de 
este estudio. 
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Un inconveniente que se presenta a la hora de realizar un muestreo de conglomera- 
dos con un marco discriminado en áreas geográficas es la imposibilidad de conocer 
cuántas empresas estarán ubicadas en cada zona geográfica. Sin embargo, sí es 
posible asignar subdivisiones de cada zona geográfica seleccionada a un grupo de 
encuestadores para que recorran la zona y apliquen el cuestionario a cada una de 
las empresas del sector. De esta forma, es posible tener una estimación del pre- 
supuesto que se requiere. La población Uz de conglomerados, es decir la ciudad, 
se divide en cinco zonas geográficas, a saber: Zona A, ubicada en el sur, Zona 
B, ubicada en el norte, Zona C, ubicada en el oriente, Zona D, ubicada en el 
occidente y Zona E, ubicada en el centro. 


Recordando los objetivos del estudio, el gobierno quiere medir el crecimiento del 
sector industrial en la ciudad, mediante tres características importantes: el ingre- 
so y los impuestos declarados en el último año fiscal y la generación de empleos 
mediante la cantidad de trabajadores que laboran en cada empresa. Seguramente, 
ni el ingreso, ni los impuestos, ni la cantidad de empleados están correlacionados 
con la zona geográfica. Podemos afirmar esto porque la ubicación de las empresas 
es realizada por el gobierno siguiendo diversos criterios. 
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Figura 6.1: Boxplot de las características de interés en cada zona geográfica. 


Es así como en una misma zona geográfica, es posible encontrar una empresa 
grande rodeada de empresas pequeñas o medianas. Este es un muy buen indicio 
en la etapa del diseño de muestreo pues quiere decir que el comportamiento de 
las características de interés dentro de cada área geográfica es muy disperso. La 
figura 6.1 presenta el comportamiento de las características de interés en cada una 
de las cinco zonas geográficas de la ciudad. Nótese que no es posible identificar un 
comportamiento estructural significativamente diferente en cada zona, sino que por 
el contrario, el comportamiento es heterogéneo dentro de cada zona y homogéneo 
entre las zonas. 


Aunque no se conoce el número de empresas en el sector industrial, el gobierno 
ha estimado según datos de años anteriores la existencia de 2500 empresas para 
el último año fiscal. Con esta información se ha decidido seleccionar una mues- 
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tra aleatoria simple de conglomerados de tamaño n, = 2. Por tanto, el tamaño 


2 
muestral de empresas esperado corresponde a 25005 = 1000. De la población de 


N] = 5 conglomerados de áreas se selecciona una muestra aleatoria simple de 
n7 = 2 utilizando la función S.SI del paquete muestreo. En este caso particular, 
los conglomerados incluidos en la muestra sin reemplazo corresponde a la Zona 
A y ala Zona E. 


> UI <- AI A A 
> NI=length(Ul) 
nl=2 


NA 


> saml <- S.SI(NI,nI) 
> muestra <- Ul[samlI] 
> muestra 

11] "gn "E" 


Un equipo de encuestadores se dispone a recolectar la información de cada una de 
las empresas pertenecientes a los conglomerados seleccionados, el plan operativo es 
más eficiente entre más entrevistadores sean contratados por cada conglomerado 
seleccionado. Cuando el proceso de medición termina se tienen dos conjuntos de 
datos, cada una conteniendo el valor de las características de interés para cada 
una de las empresas del área, correspondientes a Zona A y Zona E. 


Con la función rbind es posible unir la información de las zonas geográficas se- 
leccionadas en la muestra. Con ayuda de la función T.SIC(y,C), del paquete 
TeachingSampling, es posible obtener los totales de las características de interés 
en cada conglomerado. Los argumentos de esta función son y, el conjunto de datos 
(una sola variable o un conjunto de variables) del censo en cada conglomerado y 
C, una variable que indica la pertenencia del elemento, en este caso de las empre- 
sas, al conglomerado. El resultado de la función es el total de elementos en cada 
conglomerado, así como el total de las características de interés en cada uno de 
los conglomerados. En este caso particular, el tamaño de la muestra de empresas 
es 307 + 165 = 472. Nótese que, como en los casos de estimación de los capítulos 
anteriores, se crea un conjunto de datos de las características de interés definido 
por estima <- data.frame(Income, Employees, Taxes). 


data (Lucy) 

attach (Lucy) 

Lucy1 <- Lucy[which(Zone==muestra[1]),] 
Lucy2 <- Lucy [which(Zone==muestra[2]),] 


VWvVvoyv 


> Lucyl <- rbind(Lucy1,Lucy2) 
> attach(Lucyl) 


> Area <- as.factor(as.integer(Zone)) 
estima <- data.frame(Income, Employees, Taxes) 
y <- T.SIC(estima,Area) 


vv 
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> y 

1 Income Employees Taxes 
1 307 200251 24338 7377.5 
5 165 126619 14570 5131.0 


Una vez que se tienen los totales de cada zona geográfica, se utiliza la función 
E.SI(NI,n1,y) del paquete muestreo, definida en el capítulo dos, para obtener 
las estimaciones de los parámetros de interés. 


> E.SI(NI,nI,y) 


Income Employees Taxes 
Total estimado 8.171750e+05 9.727000e+04 3.127125e+04 
Varianza 2.033127e+10 3.578018e+08 1.892536e+07 


coeficiente de variación 1.744886e+01 1.944654e+01 1.391159e+01 


Los resultados de la estimación se muestran en la siguiente tabla. Es de consi- 
derar que la eficiencia de esta estrategia de muestreo es mucho menor que la de 
una estrategia que utilice un diseño de muestreo aleatorio simple. Nótese que la 
desviación relativa es mucho mayor. 


Tabla 6.2: Muestreo aleatorio de conglomerados: estimación de los totales de las 
características de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 817175 1.74 -21.06 
Empleados 151950 97270 1.94 -35.99 
Impuestos 28654 31271 1.39 9.14 


Es claro que los resultados de esta estrategia de muestreo no son satisfactorios, 
por lo menos para la estimación de los parámetros de interés de Ingreso e Impues- 
tos. La explicación de la deficiencia de esta estrategia es inmediata al analizar el 
siguiente gráfico que muestra el comportamiento estructural de los totales en los 
conglomerados. 


Totales Empleados Totales Ingreso Totales Impuestos 


Figura 6.2: Totales de las características de interés en cada conglomerado. 
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Es notable como el comportamiento de los totales es tan diferente en cada conglo- 
merado en las características Ingreso y Empleados. Sin embargo, el comportamien- 
to es similar en cuanto a la característica Impuestos. Es interesante observar que 
entre más disimilitud existe entre los totales de los conglomerados, más desviación 
relativa existe en la estimación. Como se dijo en la introducción de este capítulo, 
esta estrategia de muestreo es ineficiente en aquellos casos en que los totales de 
cada conglomerado no están correlacionados con las probabilidades de inclusión 
a nivel de conglomerados. Observando el gráfico, se establece que Impuestos es 
la única característica que presenta un comportamiento estable en relación a los 
conglomerados. 


La regla de oro se mantiene, una estrategia de muestreo es eficiente si las proba- 
bilidades de inclusión están correlacionadas con los valores de la característica de 
interés, en este caso con los totales de cada conglomerados. 


6.3 Ejercicios 


6.1 Argumente si las siguientes afirmaciones son falsas o verderas. Sustente su 
respuesta detallamente. 


(a) En un diseño de muestreo de conglomerados, siempre se tiene un marco 
de muestreo de elementos de la población. 


(b) En un diseño de muestreo de conglomerados, para la estimación de un 
total, se obtiene mayor precision si las probabilidades de selección o inclu- 
sión son proporcionales a los totales de la característica de interés en los 
conglomerados. 


(c) En un diseño de muestreo de conglomerados, para la estimación de un 
total, se obtiene mayor precision si las probabilidades de selección o inclu- 
sión son proporcionales a la característica de interés de los elementos en 
los conglomerados. 


(d) En la estimación de totales poblaciones, se nota que, casi siempre, Varmasc (ty) 


es mayor a Vary asÍ(ty,r)- 


(e) En un diseño de muestreo aleatorio simple de conglomerados de tamaño 
desigual, hay un aumento significativo de la varianza, respecto a un diseño 
de muestreo aleatorio simple de conglomerados de igual tamaño. 


(f) En un diseño de muestreo PPT de conglomerados de tamaño desigual 
(con probabilidad proporcional al tamaño del conglomerado), hay una 
disminución significativa de la varianza, respecto a un diseño de muestreo 
aleatorio simple de conglomerados de tamaño desigual. 


6.2 Suponga que el objetivo de una encuesta es estimar el ingreso medio en un 
barrio de la ciudad. Asuma que en ese barrio existen N, = 60 manzanas. Se 
realiza un diseño de muestreo aleatorio simple de conglomerados y se selec- 
cionan n7 = 5 manzanas, en las cuales se entrevistan a todos los hogares. Los 
resultados de la encuesta se dan en la tabla [6.3] 


(a) Estime el ingreso total de los hogares en el barrio. Reporte el coeficiente 
de variación estimado. 
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Tabla 6.3: Tabla de las cinco manzanas seleccionadas: ejercicio 6.2 
ID Manzana Hogares en la manzana Ingreso total en la manzana 


AWA45 120 25000 
AWO02 100 24000 
AW31 80 19000 
AW28 95 20100 
AW44 80 18000 


(b) Estime el número de hogares en el barrio. Reporte el coeficiente de varia- 
ción estimado. 

(c) Asumiendo que en el barrio hay N = 2000 hogares, estime el ingreso medio 
de los hogares en el barrio. Reporte el coeficiente de variación estimado. 


(d) Estime el ingreso medio utilizando el estimador de Hájek. Explique la 
diferencia con respecto a la estimación del punto anterior. 


Capítulo 7 


Muestreo en varias etapas 


En muchas situaciones, los elementos de un conglomerado pueden ser de- 
masiado similares, de modo que el análisis de todos los elementos que 
conforman el conglomerado será un desperdicio de recursos. En estos ca- 
sos podría ser más barato seleccionar más conglomerados y tomar una 
submuestra dentro de cada uno de ellos. 


Sharon Lohr (2000) 


En el capítulo anterior se utilizó la agrupación natural de los elementos en la 
población para ahorrar costes financieros y logísticos al planear una estrategia de 
muestreo por conglomerados. Sin embargo, el ahorro en términos operativos se ve 
reflejado en un alto precio por pagar con respecto a la eficiencia estadística de la 
estrategia. Una posible solución para disminuir la varianza es aumentar el tamaño 
de muestra de conglomerados, solución que aumentaría los costos operativos. 


Para mantener un equilibrio entre los costos financieros y las bondades de la es- 
trategia de muestreo es posible aprovechar la homogeneidad dentro de los con- 
glomerados y, de esta manera, no realizar un censo dentro de cada conglomerado 
seleccionado sino proceder a seleccionar una sub-muestra dentro del conglomerado 
seleccionado. Como el comportamiento estructural de la característica de interés 
al interior de los conglomerados es homogéneo, entonces una estimación del total 
del conglomerado tendría una varianza pequeña. Por supuesto, como no se tienen 
acceso a un marco de muestreo de elementos, se debe realizar un empadronamien- 
to para levantar un marco de muestreo de elementos en cada uno y sólo en los 
conglomerados seleccionados. Una vez se disponga del marco de muestreo de ele- 
mentos dentro de los conglomerados, se dispone la selección de las sub-muestras de 
elementos. Bautista (1998) plantea que el principio básico del muestreo en varias 
etapas se puede definir como el proceso jerárquico que realiza | veces los siguientes 
pasos: 


1. Construcción de l marcos de muestreo de unidades (conglomerados en las 
primeras | —1 etapas del diseño muestral y de elementos en la última etapa). 


2. Aplicación de un diseño muestral y selección de la muestras (o sub-muestras) 
de cada marco de muestreo. 
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Nótese que se ha introducido el concepto de unidad de muestreo refiriéndose a 
conglomerados de elementos o a los elementos. Si el diseño de muestreo tiene tres 
etapas, por ejemplo: si se quieren obtener estimaciones acerca del comportamiento 
de los alumnos en determinada ciudad, y no se dispone de un marco de muestreo 
de los alumnos, es posible en una primera etapa levantar un marco de muestreo 
de todas y cada una de las escuelas en la ciudad y realizar una selección de una 
muestra de escuelas mediante cierto diseño de muestreo. Una vez que las escuelas 
son seleccionadas, en una segunda etapa, se levanta un marco de muestreo de 
niveles académicos dentro de las escuelas (cursos o clases) y se procede a seleccionar 
una muestra de niveles. De tal forma que en la tercera y última etapa se levanta 
un marco de muestreo de elementos; es decir, de alumnos pertenecientes a cada 
nivel seleccionado, y se realiza una muestra de elementos que serán observados y 
medidos. 


Es interesante observar cómo la población, en el estado de la naturaleza, se sub- 
divide gracias al comportamiento «jerárquico», que en este caso particular toma 
la siguiente forma: 


Ciudad => Escuelas > Niveles > Alumnos 
<-> a cn 
PoblaciónU UPM USM UTM 


Como notación, se llama Unidad Primaria de Muestreo o UPM a la primera 
subdivisión en conglomerados de la población original, Unidad Secundaria de 
Muestreo o USM a la sub-subdivisión de la población, es decir la subdivisión 
de las UPM. La Unidad Terciaria de Muestreo o UTM corresponde a los 
elementos de la población objetivo, que en este caso particular son los alumnos de 
la ciudad. 


No siempre las unidades finales de muestreo son elementos, es así como es posible 
planear un diseño en dos etapas de conglomerados, refiriéndose a que la unidad 
secundaria de muestreo son conglomerados, o también es posible aplicar un diseño 
en cuatro etapas de elementos, en donde las unidades finales de muestreo sean 
elementos; por ejemplo, en Bautista (1998) se presenta el siguiente caso: 


Ciudad => Sección => Manzana > Vivienda > Persona 
__— o» <= Na == 
PoblaciónU UPM USM UTM UCM 


El principio básico de una estrategia de muestreo en varias etapas es construir es- 
timaciones desde abajo hasta arriba. Pero para que los resultados de la estimación 
basada en el diseño de muestreo sean aplicables, se deben satisfacer los siguientes 
dos supuestos: 


1. Invariancia: sugiere que la probabilidad de selección de una muestra de 
unidades de muestreo (conglomerados o elementos) no depende del diseño 
de muestreo de la anterior etapa. 


2. Independencia: interpretado como que el sub-muestreo de cualquier unidad 
de muestreo se lleva a cabo de manera independiente con las otras unidades 
de muestreo, en la misma etapa o en etapas superiores o inferiores. 


Para el resto del capítulo se asume implícitamente que estas propiedades se satis- 
facen en cada etapa de muestreo de la estrategia. Si los supuestos no se satisfacen, 
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entonces el lector puede consultar la sección de muestreo en varias fases del capítu- 
lo de Tópicos avanzados. Para asentar aún más la filosofía interna del muestreo en 
varias etapas, es necesario estudiar el más simple de todos los diseños de muestreo 
de esta clase: el muestreo en dos etapas. 


7.1 Muestreo en dos etapas 


También llamado muestreo «bietápico> por Mahalanobis (1946), este diseño de 
muestreo estima el total de cada cluster t;¿ mediante una sub-muestra dentro de los 
conglomerados seleccionados de la población. En la estimación de los parámetros de 
interés se encuentran dos fuentes de variabilidad cada una en cada etapa. Es decir, 
existe variabilidad debido a la selección de las unidades primarias de muestreo o 
conglomerados y, por supuesto, también existe variabilidad debido a la selección de 
una muestra de elementos, unidades secundarias de muestro en los conglomerados 
seleccionados. 


Suponga que la población de elementos U se divide en N7 unidades primarias 
de muestreo, que definen una partición de la población, llamados también con- 
glomerados y denotadas como U, = [U;,...,Un,). El ¿-ésimo conglomerado U, 
¿i= 1,...,Nz es de tamaño N,. Sárndal, Swensson d Wretman (1992) dan un 
marco general para el muestreo en dos etapas, de tal manera que 


1. Una muestra sí de unidades primarias de muestreo es seleccionada de Uz de 
acuerdo a un diseño de muestreo p(s/). Nótese que S, representa la muestra 
aleatoria de conglomerados tal que Pr(S, = ss) = pr(s1). 


2. Para cada conglomerado U; i = 1,..., N7 seleccionado en la muestra sy, 
se selecciona una muestra s; de elementos seleccionada de acuerdo a un 
diseño de muestreo p;(s;). Nótese que S; representa la muestra aleatoria de 
elementos tal que Pr(S; = s;) = p;(s;). 


Este diseño de muestreo bietápico debe cumplir las dos propiedades de invarianza 
y de independencia. La invarianza significa que los diseños de muestreo p;(s;) de 
la segunda etapa no dependen del resultado en la primera etapa, es decir, que el 
diseño de muestreo siempre debe ser el mismo dentro de cada una de las unidades 
primarias de muestreo. 


Pr(S, =si| S1 =s8s/) = Pr(S, = s;). (7.1.1) 


Nótese que lo anterior implica que p;(+|s/) = pr(-) 


La independencia significa que el proceso de selección de muestras en la segunda 
etapa dentro de cada unidad primaria de muestreo no depende de los procesos 
de selección utilizados en los restantes unidades primarias de muestreo. Es decir, 
el submuestreo en una unidad primaria de muestreo particular es independiente 
del submuestreo en otras unidades primarias de muestreo [| por tanto, para cada 
muestra aleatoria S7 en la primera etapa se cumple que 


lNótese el símil con el proceso de estratificación. 
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Pr (U 515) = II Pr(s;|s7) (7.1.2) 


1€sI 1€sI 


Si el diseño de muestreo en la primera etapa es con reemplazo, entonces un con- 
glomerado puede aparecer más de una vez, y se debe proceder a realizar el sub- 
muestreo tantas veces como aparezca dicha unidad primaria en la muestra reali- 
zada s/, con esto se garantiza que se cumplan las propiedades de independencia 
e invarianza. En términos de soporte, es posible hablar de también del tres clases 
de soporte. Á saber: 


e En la primera etapa existe un soporte Q/ conteniendo todas las posibles 
muestras realizadas de las unidades primarias de muestreo. 


e En la segunda etapa existe un soporte Q* para cada i € Uy, es decir, para 
cada unidad primaria en la etapa anterior. 


e En general, el soporte Q conteniendo todas las posibles muestras de elemen- 
tos mediante un diseño bietápico está dado por 


FO1 


== E con s¡ € Q' 


r=1 5 


0 U si, con s¡€Qi,r=1,...,4Q1 (7.1.3) 


iesí”) 


Donde $) denota la r-ésima posible muestra en la primera etapa y la car- 
dinalidad de (Q está dada por 


4Q= || 40 


1€U7 
Y la muestra de elementos - o unidades secundarias de muestreo - viene dada por 


S=|) 5; con Se Q* (7.1.4) 


1€S1 
con tamaño de la muestra aleatorio dado por 
n(S)= Y ni (7.1.5) 
1€S1 


La definición de los soportes en cada etapa y, en general, nos permiten proclamar 
que el diseño de muestreo bietápico es un auténtico diseño de muestreo. 


Resultado 7.1.1. El diseño de muestreo bietápico cumple que 
1. p(s) > 0 para todo s € Q 


2: >sco pls) =1 
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Prueba. En primer lugar, se tiene que 


p(s) = Pr(Seleccionar S7] en la etapa uno y seleccionar U S¿ en etapa dos) 


1€S] 


=p1(s1) Pr U 519) 


1€SI 


Independencia 


1(s1) II Pr( Erie) 


1€S] 
A 


= pr(s1) | [ pitss) 


1€S] 
y es claro que p(s) > 0. Ahora, para demostrar la segunda propiedad, se tiene que 


HO 


Y pís) = Y Y v(s) 


seEQ r=1 $ 


H+Q1 


= elos el pi(s:) 


r=1 sm ¡es 
ST, 81 


HO1 


= rey e 


si se 


=1 
H+Q1 


= Y ps”) =1 
r=1 


En donde la equivalencia a uno del segundo sumando en la tercera igualdad se 
obtiene haciendo el símil con la demostración del resultado 5.1.1., en donde el 
diseño estratificado se definió como una productoria. Mn 


Para ilustrar el anterior resultado, junto con la compenetración de los conceptos 
de soportes en cada una de las etapas, se diseñó el siguiente ejemplo que utiliza 
un diseño de muestreo sin reemplazo en dos etapas. 


Ejemplo 7.1.1. Nuestra población ejemplo U, dada por 
U¡=(U1, Uz, Uz) 


Suponga que se selecciona una muestra s¡ de unidades primarias de muestreo de 
tamaño n, = 2 mediante un diseño de muestreo sin reemplazo tal que 


0.5, si s¡=(U,, U2), 
pi(s1) = 30.4, si s,=(U,,U3), 
0.1, si s¡=([U», U3z) 
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Ahora, suponga que dentro de cada unidad primaria seleccionada se selecciona un 
solo elemento de acuerdo a los siguientes diseños de muestreo 


0.5, si s¡=[Yues), 
0.5, si s¡=[Ken) 


0.9, si s2=[(Erik), 
0.1, si s2=[Sharon) 


pa(S3| Si) = (Lo, si s3=[ Leslie 


Es decir, el tamaño de la muestra final es n = 2. Y el soporte de la primera etapa 
está dado por 
Qr = ((01,U2), (U1,U3z), (U2z, Us), 


y los soportes de la segunda etapa están dados por Q* = [( Yves), [Ken)), Q? = 
[( Erick), (Sharon)) y Q? = [fLeslieJ). Dado lo anterior, el soporte Q está dada 
por 


iesi” ies” ¡es( 
donde 
U si = [[Yves, Erick], (Yves, Sharon), (Ken, Erick], (Ken, Sharon), 
iesf” 
U s¡ = [(Erick, Lesliej, (Sharon, Leslie), 
ies” 
y 


U s; = (Yves, Leslie), (Ken, Leslie)) . 


¡es 


Las probabilidades | [,¿., pi(si) y pr(s1) para todas las posibles muestras son como 
sigue a continuación: 


p(s_1) X p(s_2) p(s_D) p(s) 
Yves Erick 0.5 X 0.9 0.5 0.225 
Yves Sharon 0.5 X 0.1 0.5 0.025 
Ken Erick 0.5 X 0.9 0:5 0.225 
Ken Sharon 0.5 X 0.1 0.5 0.025 
Erick Leslie 0.9X 1.0 0.1 0.090 
Sharon Leslie 0.1 X 1.0 0:31 0.010 
Yves Leslie 0.5X 1.0 0.4 0.200 
Ken Leslie 0.5X 1.0 0.4 0.200 


Total 1.000 
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Se observa que p(s) es un auténtico diseño de muestreo. Nótese que dentro de 
cada posible muestra de la primera etapa, la suma de probabilidades es igual a 
uno. Por ejemplo, para S; = (U;¡,U2), las posibles muestras en la segunda eta- 
pa corresponden a (Yves, Erick), (Yves, Sharon), (Ken, Erick) y (Ken, Sharon) 
con probabilidades 0.45, 0.05, 0.45 y 0.05, respectivamente, y la suma de estas 
probabilidades es igual a uno. 


Los parámetros poblacionales de interés pueden escribirse como: 


1. El total poblacional, 


Ni N; 
== O (7.1.6) 
keU 1=1 k€U; ¿=1 


donde ty = keu, Yh es el total de la ¿-ésima unidad primaria de muestreo 
a A 


2. La media poblacional, 


rev Yh Sl 
E e Y y =>+ 5 Y Nids (7.1.7) 
i=1 keU; Na 


1 
donde y; = A Ez eu, yx €s la media de la 1-ésima unidad primaria de mues- 
treo ¿1 = O 


Ejemplo 7.1.2. Nuestra población ejemplo U, dada por 
U] = (Ur, U2z, Uz) 


Suponga que se selecciona una muestra s; de unidades primarias de muestreos de 
tamaño n7 = 2. El sub-muestreo en la segunda etapa es tal que en cada unidad 
primaria de muestreo seleccionada en la primera etapa se selecciona un sólo ele- 
mento, de tal forma que el tamaño de la muestra de elementos es de dos. Defina 
el soporte Q de elementos si la selección de la muestra es con reemplazo. 


7.1.1 El estimador de Horvitz-Thompson 


En la primera etapa las probabilidades de inclusión de primer y segundo orden, 
de las unidades primarias de muestreo, inducidas por el diseño de muestreo p(s7) 
están dadas por Tr; y Tr¡¿ respectivamente con 2, j € Ur. Por tanto se tiene que 


1 — 2 j> 1 , ) U > 
Arij= E Aja: AE (7.1.8) 


Trrill — rr4), sii=j€U,7. 


En la segunda etapa las probabilidades de inclusión de primer y segundo orden, de 
los elementos en la ¿-ésima ¿ € S/ unidad primaria de muestreo, inducidas por el 
diseño de muestreo p¿(s¿) y condicionadas a que U, fue seleccionada en la muestra 
de la primera etapa están dadas por T;]; y Tp1]¿ respectivamente para k,l € U; con 
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Tri = Pr(k € S¿JU; € S1) Y Trlli= Pr(k € Si, l € Si JU; € S1). Por tanto se tiene 
que 


O ET sikAl, (7.1.9) 
sllé Trjill — Tra), sik=l. e 


En general, de la definición de probabilidad de inclusión se tiene el siguiente re- 
sultado. 


Resultado 7.1.2. La probabilidad de inclusión de primer orden del k-ésimo ele- 
mento de U está dada por 


Tr. = Pr(k € S) = Pr(k € S; y 1€ Sy) 
= Pr(k € S¿|i € S1)Pr(i € S1) = TayuT1i (7.1.10) 


La probabilidad de inclusión de segundo orden está dada por 


TIT klis sik=lE€U,, 
Tk = A TIT folás sik A l€ Us, (7.1.11) 
TIijTk ji Too sikeU, leUl(i4 1). 


Con el anterior resultado podemos utilizar la forma general del estimador de 
Horvitz-Thompson para hallar su expresión particular y su varianza bajo un diseño 
de muestreo bietápico (Sárndal, Swensson € Wretman 1992). Sin embargo, para 
hallar una forma más rápida de calcular la varianza del estimador necesitamos 
recurrir a algunos resultados muy conocidos de la teoría de probabilidad. Éstos 
han sido utilizados ampliamente en el campo del muestreo, pero no fue sino hasta 
que Hansen, Hurwitz £ Madow (1953) publicaron dichos resultados aplicados al 
muestreo. En general, se trata de expresar: 


e La esperanza de una variable aleatoria como el valor esperado de esperanzas 
condicionales. 


e La varianza de una variable aleatoria como la suma de la varianza de espe- 
ranzas condicionales y la esperanza de varianzas condicionales. 


Resultado 7.1.3. Sean U y H variables aleatorias, entonces: 
E¡(U) = Es(E,(U|H)) (7.1.12) 


y, a Su vez, 
Var, (U) = Es(Var,(U|H)) + Var2(E, (U|H)) (7.1.13) 


En donde el subíndice 1, denota la esperanza o varianza inducida por la función 
de distribución de la variable aleatoria U, y el subíndice 2 denota la esperanza o 
varianza inducida por la función de distribución de la variable aleatoria H. 


Prueba. Es necesario recordar que Pr(U = U,|H;) = Pr(U = U,, H = H;)/Pr(H);) 
y además que Pr(U =U,) = > ,(U =U;, H = H;), por consiguiente. 
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1. Esperanza: 
E,(U) = Y U¡Pr(U =U,) 

= UY Pro =U,, H = H;) 
i 3 

= Y 0) Pr(U =0;,H = H;)Pr(H = H,) 
i y 

= Y * Pr(H = H;) Y U¡Pr(U =U;|H = H;) 
E 5 

= Es = Hj)E2(U|H = H;) 
3 


= Es(E1(U|H)) 


2. Covarianza: sea W, una variable aleatoria y tomemos a a = Ez(U) y y = 
E2(W) 


S 
S 
z 
] 


1y)] + Elxy) — Er(x)E1(y) 
)] + Covi (x, y) 
)] + Covi [E2(U), Es(W)] 


3. Varianza: dado que la varianza es un caso particular de la covarianza, enton- 
ces: 


Var(U) = Cov(U, U) = E, [Cova(U, U)] + Cov1 [E2(U), Es(U)] 
= Ej [Vara(U)] + Var; [Es(U)] 


Con ayuda del anterior resultado es posible obtener expresiones para el estimador 
de Horvitz-Thompson que muestren la variación en cada una de las dos etapas 
de este diseño de muestreo. Es interesante la forma que toma tanto el estimador 
genérico como su respectiva varianza porque, dado que existen dos etapas de mues- 
treo, en la primera se estiman los totales de los conglomerados y, en la segunda 
etapa se estima el gran total utilizando esas estimaciones en las unidades primarias 
seleccionadas. Como el proceso de estimación se lleva a cabo en dos etapas, es de 
esperarse que existan dos fuentes de variación: la primera debido a la estimación 
de los totales de las unidades primarias de muestreo y la segunda debido a la 
estimación del gran total. Suponiendo que fueron seleccionadas cuatro unidades 
primarias de muestreo, existirán entonces cuatro estimaciones cuya varianza estará 
sintetizada en una sola expresión, mientras que, por otro lado, existirá otra fuente 
de variación cuando se quiera estimar el gran total. 
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Resultado 7.1.4. Bajo muestreo en dos etapas el estimador de Horvitz-Thompson 
es insesgado para el total poblacional y toma la forma 


MD 


1€S1 keS,; 


== byize (7.1.14) 


Tr; 
1€S1 Le 


a 
con varianza dada por 


A tt; Var», (6; 
Vargrléya) = Y Ari + ma (7.1.15) 


Var(UPM) Var(USM) 


cuya estimación insesgada es 


Vargr(t Lu - gir Íyáe Y Var (ty) (7.1.16) 


Tlijg Tili Tlj 1€S1 Tli 
Var(UPM) Var(USM) 
donde 
2 k YI 
Var(é) = Y Y Aga EL (7.1.17) 
7 Tri Ti 
k 
bir =D) 
res, Deli 


representando la estimación del total de la característica de interés en la i-ésima 
unidad primaria de muestreo y 


Var, a Druli Ye Ye (7.1.18) 


Trlli Trli Tilá 


Nótese que la variación del estimador se descompone en las dos etapas propias de 
este diseño. Además es importante tener en cuenta que Var(UPM) y Var(USM) 
no son estimadores insesgados para Var(UPM) y Var(USM) respectivamente. 
Sin embargo, toda la expresión Varar(é,, 7) sí lo es para Varpr(t,, e): 


Prueba. Para desarrollar el anterior resultado es necesario manejar los dos con- 
ceptos inherentes al muestreo en dos o más etapas. a)La invarianza: para se- 
leccionar las unidades primarias de muestreo se debe utilizar un mismo diseño y 
b)La independencia: cualquiera que fuere el diseño escogido para seleccionar 
los elementos dentro de una unidad primaria de muestreo, éste no debe afectar el 
sub-muestreo en cualquier otra unidad primaria de muestreo; por tanto, cualquier 
covarianza existente en esta etapa será nula. 
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En primer lugar, se tiene la siguiente forma para el estimador de Horvitz-Thompson: 


A 


keS 
=D EE 
TITLE 
iesrkes, 1 kl 
= E Y 
Ti Til 
ies 1 es, Fl 
== e 
T 
1€S1 q 


1. Insesgamiento del estimador: 


A [ue | 5,| 
1ESIN ae y 
invarianza 
Eb, (Éyi,r) 
a 05 a 
1€S1 
= En | Y buin 
EDT Tri 
1€S1 
t,. 
- LE Ep, (L1:(S1)) = ty 
Ti 
1€U1 


2. Varianza: 


Variliyn) = Varp, (E, [7] S1]) + Ep, (Var, pá | S1)) 
 _ M««MIIIM¿¿<—_A > po 


Var(UPM) Var(USM) 


(7.1.19) 


(7.1.20) 


(7.1.21) 


(7.1.22) 


(7.1.23) 
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T 
1€S1 qe 


El primer sumando es equivalente a 


Var, (E, ad S1]) = Var, NE 


Epltyn | 51) Tr | S1) 
= Varp, 
ETE 
Invarianza 
Eplty,r) ty,r) 
= | 
Tli 
2 
t y 
ES S > yi,T 
= Var», EE 
1€S1 fi 


buin tyj 
> > Yi, T “YT 
3 Arig Mii TlIj 
Ur Ti 15 


El segundo sumando toma la siguiente forma 


y ts) 


1€S1 fi 


a ES Varplbvi,! 2) 


TÍ. 
1€S1 Ti 


-e(2. E) 


Epi (Vara [ty | 51]) = Eo, (or 


Luego, la varianza del estimador está dada por la expresión (7.1.15). 
3. Varianza Estimada: para verificar que Var g 1(t,,.) es un estimador insesgado 


de la varianza del estimador de Horvitz-T'hompson, se debe tener en cuenta 
que 


? A Var. (y im) + (E (9 lO si? = Jj, 
Elintjol 5) = e id É pes 


Epi (Oyim) Ep; (Dyi,r)> siizj 
í 2 tt: 
ql e (7.1.24) 
(tyi,m) ty), siifj 


Para la primera parte de la varianza estimada se tiene que 
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su(s 


A A 1) 


Tlij TITI 


P— LyiT ts 5, |) 


Si Tlijg Ti Til; 


E | 


E| y y A yl, E (t Yi, n) do Ari Varlbni) Hi ón 


Tii ii; AS 
¡ESpiticó MI1j pe A Li 


E DS Ss Ar (t yi,T ) (tys, x) + pa (1 Tri) 


¡eS1 jes" 15 M1j 


= Y Y An es mo - Y Varlbyim) ( 2 >) 


TT 
¡€ UI jeUr 15 


Para la segunda parte de la varianza estimada se tiene que 


E (. 3 Varltyir) | 51) 
1€S1 Mii 
Var boi 
=E da Ei) ) 


1€S1 
a y Varltyin 
1€U1 
Var(t (tas, e) 1 
DS a + Var( bio) (1) 
Ur Ur 


Sumando estas dos cantidades se llega al resultado. Nótese que por sí solas, 
estas cantidades no son insesgadas para sus contrapartes poblacionales, sin 
embargo se tiene que: 


E [Var(UPM)| sE [Var(USM)] = Var(t,n) (7.1.25) 
m 


Al respecto de la forma que toma la varianza del estimador de Horvitz-Thompson, 
Sárndal, Swensson 4 Wretman (1992) afirman que: 


e Es conveniente estimar los dos componentes de varianza Var(UPM) y Var(USM) 


separadamente para tener una idea del aporte de variabilidad en cada una 
de las etapas. 


e Si Tx = Tepi = 1 para todo k,l € U; y para todo U, € S1, entonces 
Var(USM) = 0 entonces este diseño toma la forma de un diseño de conglo- 
merados. 
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e Sir]; = Trij = 1 para todo 1,j =1,..., N7, entonces este diseño se torna en 
un diseño estratificado. 


Ejemplo 7.1.3. Utilizando la información del ejemplo 7.1.1, compruebe, mediante 
un ejercicio léxico-gráfico, el insesgamiento del estimador de Horvitz-Thompson. 


7.2 Diseño de muestreo MAS-MAS 


En el muestreo aleatorio simple de conglomerados se medían todos y cada una de 
los elementos pertenecientes a los conglomerados seleccionados en la muestra s7. 
Sin embargo, dado que, en la mayoría de situaciones, los conglomerados tienden a 
ser muy similares en el comportamiento estructural de la característica de interés 
se consideraría un desperdicio de recursos económicos y logísticos la incorporación 
de elementos que no traen consigo nueva información. Para esto es más económico 
tomar una muestra más amplia de unidades primarias de muestro y realizar un 
sub-muestreo dentro de cada una de ellas. 


Este diseño de muestreo supone que la población está divida en N7 unidades 
primarias de muestreo, de las cuales se selecciona una muestra s7 de n, unidades 
mediante un diseño de muestreo aleatorio simple. El sub-muestreo dentro de cada 
unidad primaria seleccionada es también aleatorio simple. Es decir, para cada 
unidad primaria de muestreo seleccionada 1 € sí, de tamaño N; se selecciona una 
muestra s; de elementos de tamaño n;. 


7.2.1 Algoritmos de selección 


En la selección de las muestras de unidades primarias y secundarias sin reemplazo 
se utilizan los algoritmos de muestreo dados en el capítulo 2, de tal forma que los 
siguientes pasos se deben realizar: 


e Separar la población en N, unidades primarias de muestreo mediante el 
marco de muestreo de conglomerados. 


e Realizar una selección de n7 conglomerados mediante cualquiera de los méto- 
dos expuestos en la sección 3.2.1; es decir, por el método coordinado negativo 
o por el método de Fan-Muller-Rezucha. 


e Para cada unidad primaria seleccionada en la muestra de la primera etapa 
s1, realizar una selección de n; ¿ € S] elementos mediante cualquiera de los 
métodos expuestos en la sección 3.2.1. 


Resultado 7.2.1. Cuando el diseño de muestreo es aleatorio simple en las dos 
etapas, se tienen las siguientes probabilidades de inclusión de primer y segundo 


orden 


Ti = A (7.2.1) 


ari = (7.29) 
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respectivamente. Por otro lado, la probabilidad de inclusión de un elemento o uni- 
dad secundaria de muestreo perteneciente a la ¿-ésima unidad primaria de muestreo 
1€ U] está dado por 


me = == (7.2.3) 


Una vez que la muestra de unidades primarias s/ es seleccionada se dispone a 
realizar una enumeración completa de los elementos pertenecientes a ésta para 
levantar un marco de muestreo que permita la selección de una sub-muestra para 
realizar la respectiva medición de todos y cada uno de los elementos pertenecientes 
a la sub-muestra seleccionada. En el diseño de muestreo aleatorio por conglome- 


rados el estimador del total poblacional t, estaba dado por ty = Dies, tyi 
n; 


porque se conocían los totales exactos de cada conglomerado seleccionado mediante 
la realización de un censo en los mismos. Por otra parte, en el muestreo en dos 
etapas MAS-MAS, debido a que no se miden todos los elementos de las unidades 
primarias seleccionadas, se deben estimar estos totales ty; mediante la siguiente 
expresión 


a N; = 
tyia = E y Y. = Niyu, (7.2.4) 
kES; 
Con el siguiente resultado se llega a una estimación del parámetro de interés 


Resultado 7.2.2. Bajo muestreo en dos etapas MAS-MAS, el estimador de Horvitz- 
Thompson es insesgado para el total poblacional y toma la forma 


2 N; N; 

La — 7.2.5 

Y, mn 3 nm 2 E ( ) 
1€S1 ES; 


con varianza dada por 


A N? NT N; No ni 
Varumltyr) == ( - 7) Sc, Ur > y ( x) De (7.2.6) 


NI 


cuya estimación insesgada es 


E NE n NON ni 
Varunmltyr) == (1- y) is ( 2) Sie  AUAD 


n n 
L 1€S1 ? 


donde SU es la varianza poblacional de los totales t,; 1 € Ul de todas y cada 
una de las unidades primarias de muestreo y Sos es la varianza poblacional entre 


los elementos dentro de cada unidad primaria de muestreo. Similarmente, Si Ed 
ySI 


2 
Ya? 


El primer término de (7.2.6) se refiere a la variabilidad debida a la primera etapa 
del diseño muestral mientras que el segundo sumando se refiere a la varianza 
adicional debida al sub-muestreo en las unidades primarias de muestreo. Lohr 
(2000) afirma que, de igual manera como en el caso del diseño de muestreo por 
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conglomerados, si las unidades primarias de muestreo presentan distintos tamaños 
entonces la variabilidad del estimador puede ser muy grande. Si los tamaños N;, de 
los conglomerados ¿ € Uz son muy diferentes entre sí, el componente de varianza 
será grande incluso si el comportamiento estructural de la característica de interés 
es constante en cada unidad primaria. 


7.2.2 Tamaño de muestra 


Cada vez que avanzamos en el desarrollo programático de este texto nos encon- 
tramos, si bien los principios de estimación son los mismos, con que el diseño de 
la encuesta y la estimación de los parámetros de interés se tornan más complejos. 
Lohr (2000) afirma que la mejor manera de diseñar una encuesta es revisarla des- 
pués de que esta haya concluido pues, al finalizar la encuesta, es posible evaluar 
el efecto de las unidades primarias de muestreo sobre la estimación final y, de es- 
ta manera, es posible saber en dónde se deberían asignar más recursos logísticos 
para obtener una mejor información. Pero a pesar de que el conocimiento de la 
población sea aceptable, siempre surge la pregunta del tamaño de muestra. En 
particular, ¿cuántas unidades primarias de muestreo se deberían seleccionar en la 
muestra? y ¿cuántos elementos o unidades secundarias de muestreo deberían ser 
seleccionados en el sub-muestreo dentro de las unidades primarias de muestreo? 


Por ejemplo, en particular en las encuestas de áreas mientras mayor sea el tamaño 
de la unidad primaria de muestreo, se puede esperar que exista más variabilidad de 
dentro de la misma. Sin embargo, si el tamaño de unidad primaria es muy grande, 
se podrían perder los beneficios del ahorro financiero y logístico. 


El objetivo de una buena muestra es recopilar la mayor cantidad de información 
al menor precio económico y operativo. Suponga que la población está divida en 
N;, unidades primarias de muestreo, de las cuales se selecciona una muestra sy 
de n7 unidades. Cada unidad primaria de muestreo contiene exactamente N; = 
M elementos o unidades secundarias de muestreo. El sub-muestreo es tal que se 
selecciona una muestra de exactamente n¿ = m unidades secundarias de muestreo. 
Por tanto, el tamaño poblacional y muestral estará dado por 


N=NM y  n=njm (7.2.8) 


respectivamente. De tal forma que el estimador de t, se puede escribir como 


- NM 
br Y (7.2.9) 


1€ES1 kES; 
y su varianza como 
. N? n N?¿mM? MN a 
Varum (ty) = Mi ( - y) Síu, + o (1 - 5) Eh (7.2.10) 
donde o = (1/ND Viev, e 
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Resultado 7.2.3. Utilizando los resultados de la descomposición de las sumas de 
cuadrados, la varianza de la estrategia en dos etapas (2MAS) toma la siguiente 
forma 


N2M | 1 


M SCD 
y =1($CT - SCD) + (2 1) e ] 


(4 1) 

(7.2.11) 
mientras que la varianza de la estrategia aleatoria simple, con un tamaño pobla- 
cional igual a N = M x Ny elementos y un tamaño de muestra igual an =mxmn] 
elementos, se puede escribir como 


Varzmaslty) = = 
I 


A N? n SCT 
Varuasltyr) = a ( 1) Mim A (7.2.12) 


Para encontrar los valores óptimos de n, y m que serán utilizados en la primera y 
segunda etapa de muestro de tal forma que dada una función de costo se minimicd?] 
la varianza del estimador. Por tanto, se tiene el siguiente resultado. 


Resultado 7.2.4. Al considerar la siguiente función de costo 
C =Cc¡n] +<c2n¡m (7.2.13) 


donde c; es el costo de del levantamiento del marco de muestreo en cada unidad 
primaria seleccionada en la muestra s] y ca es el costo de recolectar la información 
de la característica de interés para los elementos o unidades secundarias selec- 
cionadas por el sub-muestreo. Los valores óptimos de n, y m que minimizan la 
varianza del estimador dada por la expresión (7.2.6) restringido al costo total de 
la encuesta dado por (7.2.11) son 


n= a (7.2.14) 
C1 + Cam 


c1/ca 


m=MS ¡=> (7.2.15) 
qe Si,U, o MS, 


Prueba. La cantidad a minimizar está dada en la expresión (7.2.10) que está 
sujeta a la restricción de la función de costo (7.2.11). Utilizando el método de los 
multiplicadores de Lagrange, se tiene que 


N? n N2¿M? MN 7 
L(nr,m, A) => a ( o y) Sí,Uy 0 (1 a) 2 


+ Acin] + conjm-—C)  (7.2.16) 


Anulando las derivadas parciales se tiene que 


OL NAC 1. IS Ns 

On ná m MM Sy, me Si,yur FCA + camA =0 (7.2.17) 

ó0L _ NiM?, 

Sm = ma vo, + ani =0 (7.2.18) 
A 


2Naturalmente estos valores dependerán de la función de costo utilizada. 
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De (7.2.15) se tiene que 


1 Los 
OS € 37) 52, + NPSÍ o, 
= 7.2.19 
E CIA +camA ( ) 
De (7.2.16) se tiene que 
NiM?S? 
n= a (7.2.20) 


Igualando las anteriores ecuaciones y despejando m se tiene la demostración del 
resultado. a 


Si ii la variabilidad de la característica de interés dentro de las unidades pri- 
marias es grande, entonces m será grande. Se debe resaltar que los resultados son 
válidos si la función de costo es la correcta. 


7.2.3 Estimación de la varianza en muestreo de dos etapas 


Cuando la estrategia de muestreo hace uso del estimador de Horvitz-Thompson 
podemos utilizar su forma general para hallar su varianza bajo cualquier diseño de 
muestreo. La expresión de la varianza del estimador de Horvitz-Thompson bajo 
muestreo bietápico está dada por 


A des 
Var(t,) = Y A +) V,/mr (7.2.21) 
UI ASS UI 


cuya estimación insesgada es 
Po Ari ti Ej . 
Vat (7.2.22) 
Ti j 


La expresión anterior involucra el cálculo de las varianzas de las variables dentro 
de cada conglomerado. Lo anterior en una encuesta a gran escala puede llegar a 
ser muy tedioso, costoso y además muy demorado. Sárndal, Swensson € Wretman 
(1992, p. 139) dan una posible solución al problema, ésta es mantener la primera 
parte del estimador de la varianza como estimador general de la misma. Así, un 
estimador sencillo, pero sesgado, es 


Var2(t.) = YY a a (7.2.23) 


Tii Ti; 
sI Ti Ij 


El anterior estimador sobre-estima la varianza para las unidades primarias de 
muestreo, pero a su vez también lo hace con (7.2.19). Otra posible solución para 
estimar la varianza del estimador de Horvitz-Thompson, es asumir que el muestreo 
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en la primera etapa se llevó a cabo con reemplazo. Así, la estimación (sesgada) de 
la varianza estaría dada por 


2 


Varz(t,) = a 5) y ( hi i,) (7.2.24) 


41 NPIi 


Un caso especial del anterior término, se tiene suponiendo que Ty = Npx, y si el 
muestreo en la primera etapa fue aleatorio simple, entonces px = >. El estimador 
de la varianza, bajo la anterior condición es 


Van? N? e Ni=1 t; N? da 
Var(tz)= =D y (a E ) = Se 
i=1 

Srinath € Hidiroglou (1980) proponen un método rápido para la estimación de 
la varianza del estimador de Horvitz-Thompson. Éste supone que el método de 
selección en la segunda etapa es MAS y es invariante en la primera etapa (se 
puede seleccionar la muestra en la primera etapa mediante cualquier diseño); lo 
que conlleva a que este estimador de la varianza sea insesgado y está dado por 


Vara(tn) = => O ma ($) (7.2.25) 
sI e 


y MA A ÑN, 
donde t', = + y t; = 57 Ys Y. donde S; denota una muestra de ni; elementos. 
5 5 


TIj 


La regla para determinar el nm; y obtener el estimador Vara es 


AE - ni(l — r1;) 
2 1—Tpln;/N;) 


(7.2.26) 
Simulación: se utilizaron los datos de la encuesta familiar de gastos FAMEX 
(Canada Family Expenditure, por sus siglas en inglés) del año 1996, que cuenta 
con un total de 691 individuos y está dividida en cinco conglomerados, se utilizó 
la variable gasto para estimar el total en una muestra bietápica y los datos de 
FAMEX 1996, aunque son los datos de una encuesta, se tomaron como los datos 
de un universo. 


El estudio quiere verificar los resultados obtenidos anteriormente. Para el diseño de 
la muestra se quiso que en la primera etapa se seleccionaran tres conglomerados; 
para cada conglomerado seleccionado, se extrajo una muestra cuyo tamaño fuera 
el 40% del mismo. El muestreo y el sub-muestreo fueron aleatorios simples MAS- 
MAS. El total poblacional para la variable de interés es USD 711623 y la varianza 
del 7 estimador, bajo las anteriores condiciones, es 6595944566. 


Así, se calcularon los siguientes estimadores para la varianza del total estimado ft, 
. Vari(t5): el estimador clásico al utilizar muestreo bietápico. 
. Vara(tr): correspondiente al primer sumando del anterior estimador. 


e Varz(t,): el estimador suponiendo muestreo con reemplazo. 
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. Vara(t,): el estimador propuesto por (Srinath € Hidiroglou 1980) (1.5). 


El proceso se repitió B = 5000 veces. La simulación fue programada en el paquete 
estadístico R. En la simulación. El desempeño de un estimador V fue evaluado 
usando su sesgo relativo, SR y su eficiencia relativa, ER, definidas como: 


0 
pl bo 
si=B y EN (7.2.27) 
b=1 
pia 2 ) (7.2.28) 
ECM(V) 
donde 
A B A 
ECM(V) = BN (% - V) (7.2.29) 
b=1 


y V, se calculó en la b-ésima muestra simulada. Como se puede notar el estimador 
clásico al utilizar muestreo bietápico, V;, fue utilizado como línea base de compa- 
ración. Grandes valores para ER(> 1) representan alta eficiencia del estimador V 
en comparación al estimador clásico. 


Vari(f,) Varalt,) Varz(t,) Varalt,) 
0.0008138860  0.2458789480  -1.5021980054  -0.0008792021 


Sesgo relativo para cada estimador 


Los resultados empíricos indican que el estimador de la varianza para el estimador 
de Horvitz-Thompson es insesgado, así como el estimador propuesto por (Srinath 
¿ Hidiroglou 1980). Pero, los estimadores 2 y 3 tiene un sesgo relativo importante, 
sobre todo aquel que supone muestreo con reemplazo; también se puede observar 
que el estimador de la primera parte de (7.2.20), aunque es sesgado, esta magnitud 
es pequeña. En particular se recomienda seguir trabajando con el estimador clásico 
pues los avances computacionales así lo permiten. La eficiencia relativa de todos 
los estimadores resultó despreciable. 


7.2.4 Marco Il y Lucy 


En el capítulo pasado se ejecutó un diseño de muestreo por conglomerados cuya 
principal característica es que las unidades dentro de cada conglomerado tienen un 
comportamiento relativamente similar. Esto llevó a que las estimaciones estuvieran 
muy lejos de la realidad dado que se utilizó un diseño de muestreo que inducía 
probabilidades de inclusión constante, siendo que el comportamiento de los totales 
de los conglomerados no era constante para las características de interés. 


En esta oportunidad, volvemos a enfrentarnos a la dificultad de obtener una mues- 
tra de empresas del sector industrial careciendo de un marco de muestreo que nos 
permita la inclusión directa de las empresas en la muestra. Sin embargo, es posible 
utilizar como base el muestreo por áreas que se propuso en el capítulo anterior pero 
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la gran diferencia es que, en lugar de un censo en las áreas geográficas seleccio- 
nadas, realizaremos un sub-muestreo. Recordemos que la ciudad está dividida en 
cinco zonas geográficas rotuladas como Zona A, ubicada en el sur, Zona B, ubi- 
cada en el norte, Zona C, ubicada en el oriente, Zona D, ubicada en el occidente 
y Zona E, ubicada en el centro. 


Suponga que no se tiene información acerca de cuántas empresas pertenecen a cada 
zona geográfica, por lo que no es posible realizar un diseño auto-ponderado. Para 
garantizar una buena precisión se ha decidido seleccionar una muestra aleatoria 
simple de cuatro zonas geográficas, o unidades primarias de muestreo. Lo anterior 
se realiza mediante el uso de la función sample, aunque también es admisible 
realizarlo con la función S.SIdel paquete TeachingSampling. 


UI <- cCO"A","B","C","D","E") 
NI=1ength(UI) 

nI=4 

saml <- sample(NI,nI) 
muestral <- Ul[saml] 
muestral 

PTE NBro ga apó cir 


VWMVWvVOyvoyVv oy 


Una vez se realiza el sorteo aleatorio, las zonas geográficas seleccionadas son: Zona 
B, Zona C, Zona D y Zona E. El paso a seguir es el empadronamiento de cada 
una de las empresas del sector industrial pertenecientes a cada zona incluida en la 
muestra. Es decir, se debe planear un operativo de campo con el fin de levantar un 
marco de muestreo para cada unidad primaria. En total se deben conseguir cuatro 
marcos de muestreo de empresas. 


> data(Lucy) 

> attach(Lucy) 

> Lucy2 <- Lucy [which(Zone==muestral [1]),] 
> Lucy3 <- Lucy [which(Zone==muestral[2]),] 
> Lucy4 <- Lucy [which(Zone==muestral[3]),] 
> Lucyb <- Lucy [which(Zone==muestral[4]),] 
> N2 <- dim(Lucy2) [1]; n2 <- 75 

> N3 <- dim(Lucy3) [1]; n3 <- 245 

> N4 <- dim(Lucy4) [1]; n4 <- 50 

> N5 <- dim(Lucy5) [1]; n5 <- 40 


> Ni <- c(N2,N3,N4,N5) 
> ni <- c(n2,n3,n4,n5) 


Cuando la primera etapa de muestreo concluye, se tiene conocimiento de cuántas 
empresas del sector industrial pertenecen a cada zona geográfica incluida en la 
muestra. La Zona B con 727 empresas, la Zona C con 974 empresas, la Zona D 
con 223 empresas y, por último, la Zona E tiene un total de 165 empresas. Se ha 
decido que los tamaños de muestra correspondan a un porcentaje del tamaño de 
cada unidad primaria de muestreo. El tamaño de la muestra es de 410 empresas. 
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Con ayuda de cada uno de los cuatro marcos de muestreo se realiza una muestra 
aleatoria simple de empresas de acuerdo a los tamaños establecidos anteriormente. 
Cuando las muestras hayan sido seleccionadas se unifican mediante el uso de la 
función rbind que lo único que hace es mezclar las bases de datos de las empresas 
incluidas en la muestra. 


> sam2 <- sample(N2,n2) 
> sam3 <- sample(N3,n3) 
> sam4 <- sample(N4,n4) 
> sam5 <- sample(N5,n5) 
> 
> muestra2 <- Lucy2[sam2,] 
> muestra3 <- Lucy3[sam3,] 
> muestral <- Lucy4[sam!,] 
> muestrab <- Lucy5[sam5,] 
> 
> muestra <- rbind(muestra2,muestra3,muestral,muestrab) 
> attach(muestra) 
> muestra 

Identificador Ubicación Level Zona 
2345 AB1206 c25k68 Grande B 
124 AB1334 c2k25 Pequeño B 
1204 AB2381 c13k16 Pequeño C 
713 AB187 c8k20 Pequeño Cc 
2132 AB785 c23k53 Mediano D 
2049 AB684 c22k69 Mediano D 
2222 AB887 c24k44 Mediano E 
2212 AB875 c24k34 Mediano E 


Cuando el levantamiento de la información ha concluido, se carga el archivo de 
datos en el ambiente de R y se construye un data frame que contiene los valores 
de las características de interés en la muestra general. En este caso particular lleva 
el nombre de estima. Es necesario que cada empresa incluída en la muestra lleve 
consigo el registro que indique a qué zona geográfica pertenece. Para este ejercicio, 
el vector Area contiene esta información. La estimación en este diseño de mues- 
treo en dos etapas se hace utilizando la función E.2S1(N1,n1,Ni,ni,y,C) cuyos 
argumentos son NI, el número de unidades primarias de muestreo que conforman 
la población. nI, el número de unidades primarias incluidas en la muestra s7. Ni, 
un vector de los tamaños de las unidades primarias de muestreo. ni, un vector 
conteniendo los tamaños de muestra en cada unidad primaria de muestreo. y, el 
archivo de datos que contiene la información de las características de interés y, 
por último, C, un vector que contiene la pertenencia de cada unidad secundaria de 
muestreo a su respectiva unidad primaria. 


> estima <- data.frame(Income, Employees, Taxes) 
> Area <- as.factor(as.integer(Zone)) 
> E.2SI(NI,n1,Ni,ni,estima,Area) 
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N Income Employees Taxes 
Total est 2136.01509 9.965934e+05 1.347360e+05 2.846822e+04 
Varianza  196008.08271 1.145907e+10 3.725672e+08 4.262562e+06 
cve 20.72682 1.074129e+01 1.432579e+01 7.252289e+00 


Los resultados de la estimación se muestran en la siguiente tabla. Nótese que 
con un tamaño de muestra similar, la eficiencia de esta estrategia de muestreo 
es mucho mayor que la de una estrategia que utiliza un diseño de muestreo por 
conglomerados y es equivalente a la de una estrategia que utilice un diseño de 
muestreo aleatorio simple. 


Tabla 7.1: Muestreo aleatorio en dos etapas: estimación de los totales de las ca- 
racterísticas de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 996593 1.07 -3.13 
Empleados 151950 134736 1.43 -11.33 
Impuestos 28654 28468 7.25 -0.65 


La ganancia en eficiencia se debe a la propiedad del diseño en dos etapas en 
donde dado un n, es posible incluir más unidades primarias en la primera etapa 
de muestreo. En este caso, el número de conglomerados incluidos en la muestra 
s¡ es el doble, lo que decrece el componente de la varianza en la primera etapa. 
El componente de variabilidad que domina la varianza en esta estimación es la 
dispersión dentro de las unidades primarias y se debe a la heterogeneidad de los 
conglomerados. 


7.3 Muestreo en dos etapas estratificado 


La teoría discutida hasta ahora en las secciones anteriores es aplicable cuando las 
unidades primarias de muestreo son seleccionadas de un estrato. Como se verá 
más adelante no hay nuevos principios de estimación o diseño involucrado en el 
desarrollo de esta estrategia de muestreo cuando lo que se quiere es estimar el total 
de la característica de interés t, de una población dividida en H estratos. 


Se supone que el muestreo en cada estrato respeta el principio de la independencia. 
Las estimaciones del total, así como el cálculo y estimación de la varianza son 
simplemente resultado de añadir o sumar para cada estrato la respectiva cantidad. 


Por ejemplo, suponga que dentro de cada estrato U, h = 1,...,H existen Ny» 
unidades primarias de muestreo, de las cuales se selecciona una muestra s/, de N7p 
unidades mediante un diseño de muestreo aleatorio simple. Suponga, además que 
el sub-muestreo dentro de cada unidad primaria seleccionada es también aleatorio 
simple. Es decir, para cada unidad primaria de muestreo seleccionada 1 € srp 
de tamaño N; se selecciona una muestra s; de elementos de tamaño n;. Cuando 
las unidades secundarias de muestreo o elementos son seleccionadas, se realiza 
el proceso de medición y el proceso de estimación para lo cual se tiene que el 
estimador del total está dado por el siguiente resultado. 


Resultado 7.3.1. Bajo muestreo en dos etapas estratificado MAS-MAS, el es- 
timador de Horvitz-Thompson es insesgado para el total poblacional y toma la 
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forma 


H H 
UR= a = y Nin y a y Uk (7.3.1) 


h=1 A 
con varianza dada por 
H 
Varemmltyr)= y Var(tyh,) (7.3.2) 
h=1 
H 2 2 
N N N 
E S Th ( mea) od In ñ ( 3) se. (7.3.3) 
51 | PIh Nir y DIA EG N 


Vargmmltyr) = » > Var(tyn,n) (7.3.4) 
h=1 
H 2 2 
N N N: : 
TS a e NO a (o (7.3.5) 
NIh Nin) *un*r mp, ni N¿) 98: 
h=1 1€SIh 


donde SEU es la varianza poblacional de los totales ty; 1 € Ur de todas y cada una 
de las unidades primarias de muestreo dentro del estrato h y e es la varianza 
poblacional entre los elementos dentro de cada unidad primaria de muestreo en el 
estrato h. Similarmente, e y e 


Este diseño de muestreo es usado para mejorar la eficiencia de la estrategia MAS- 
MAS. Sárndal, Swensson € Wretman (1992) plantean que es posible estratificar 
la población de acuerdo a una medida de tamaño, de tal forma que se agrupen 
las unidades de muestreo con un comportamiento similar en un mismo estrato. Es 
de gran interés notar que una escogencia particular dentro del sub-muestreo de 
las unidades primarias haría al estimador de Horvitz-T'hompson muy conveniente 
de calcular. De hecho, si para cada unidad primaria ¿ € Sy, seleccionada en la 
muestra de cada estrato h, h= 1,...,H se tiene que 


dy (7.3.6) 


Entonces, el estimador toma la siguiente forma 


H 
tyn = 3 DN SE Yhik (7.3.7) 


h=11€S1n kES; 


Lo que significa que, en el cálculo computacional de la estimación, los valores de la 
característica de interés simplemente se suman sin importar la unidad primaria o el 
estrato al que pertenezcan. Esta clase de estimadores se conocen con el nombre de 
estimadores auto-ponderados. La cantidad c admite una interpretación muy 
simple y es la fracción de muestreo esperada para los elementos. De esta forma, si 
se desea seleccionar una muestra con un promedio de 1% de unidades secundarias 


de muestreo o elementos seleccionados en cada estrato, entonces k = 100" 
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7.3.1 Diseños auto-ponderados 


En muchas encuestas de dos etapas es común encontrar diseños auto-pondera- 
dos. Esta clase de diseños asume que en la primera etapa de muestreo se selecciona 
una muestra S7 de unidades primarias de muestreo cuyas probabilidades de inclu- 
sión son proporcionales al tamaño de las mimas, de tal forma que si N es el tamaño 
de la población U de unidades secundarias de muestreo o elementos y n el tamaño 
de la muestra resultante, entonces 


N; 
Tili = yu 1€U; (7.3.8) 


Más adelante, en la segunda etapa de muestreo, se seleccionan muestras s; 1 € Sy 
de unidades secundarias o elementos de tamaño constante n; = Ny para cada 
unidad primaria incluida en la muestra. Por lo tanto, la probabilidad de inclusión 
de las unidades secundarias será, 


mai = A des (7.3.9) 


De tal forma que la probabilidad de inclusión general del k-ésimo elemento es 
constante y está dada por 


N; no a no E n : 
ar Ni =.NI = =€ keU; (7.3.10) 


Tk = TIT ki = 


y el estimador de Horvitz-Thompson toma la siguiente forma 


ha =D O nO (7.3.1) 


kes 1€ST kES,; kesS 


Nótese la facilidad de cálculo del estimador. Esta clase de diseños auto-ponderados 
se utilizan cuando se desea controlar el trabajo de campo, por lo que el número 
de entrevistas en cada unidad primaria incluida en la muestra será constante. 


7.4 Diseños en r etapas 


Sárndal, Swensson € Wretman (1992) afirman que a pesar de su complejidad, los 
diseños con tres o más etapas son ampliamente usados en las grandes encuestas. El 
muestreo en dos etapas puede ser generalizado mediante el siguiente resultado en 
donde se supone que existen r etapas de muestreo. De esta manera, la población 
se divide en V, unidades primarias de muestreo, de las cuales se selecciona una 
muestra s; de n, unidades mediante un diseño de muestreo p](S7). Se asume que 
es posible construir un estimadol| e para cada total ty; ¿€ S7 de las unidades 
primarias seleccionadas y que este estimador es insesgado para las restantes r — 1 
etapas del diseño muestral. Por tanto 


3Este estimador no necesariamente debe ser el estimador de Horvitz-Thompson pero sí debe 
ser insesgado. 
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Eltyil ST) = tys (7.4.1) 


Nótese que las últimas unidades de muestreo no deben ser necesariamente ele- 
mentos, pueden ser también conglomerados. Los principios de independencia e 
invarianza se siguen manteniendo en todas las etapas del diseño muestral. De tal 
manera que el fundamento de este diseño de muestreo es la acumulación de las esti- 
maciones desde la última etapa hasta la primera. Esto se sintetiza en los siguientes 
resultado de la próxima sección. 


7.4.1 El estimador de Horvitz-Thompson 


Resultado 7.4.1. Bajo muestreo en r etapas el estimador de Horvitz-Thompson 
es insesgado para el total poblacional y toma la forma 


ES Ea 
ty =D, (7.4.2) 


con varianza dada por 


Varprlby) = y y Ari - o y La (7.4.3) 


y Ti 
Ur 1€U7 

=— 
Var(UPM) Var(Resto) 


cuya estimación insesgada es 


o Arij Íyi ty , 
Sr 1 , J 1€S1 : 

o 

Var(UPM) Var(Resto) 


donde V, = Var(t,¡ | S1) y V; es un estimador insesgado de V; tal que E(V, | Sr) = 
V; para todo 1 € U;. 


Prueba. Esta demostración se realiza de manera recursiva escribiendo el estima- 
dor y la varianza como una función de los estimadores insesgados de las etapas 
subsecuentes en los niveles inferiores. Se debe tener en cuenta que el resultado 
7.2.2. se extiende naturalmente. Por ejemplo para el diseño de tres etapas, se tiene 
que 


Var(U) = Vi[Ez(Es(U)] + Er[Va(E3(U))] + Er[Es(V3(U))] (7.4.5) 
mn 


7.4.2 El estimador de Hansen-Hurwitz 
Un esquema utilizado en la práctica por la sencillez en el proceso de estimación 


consiste en seleccionar una muestra de m7 unidades primarias de muestreo median- 
te un diseño de muestreo con reemplazo que induce probabilidades de selección pr; 
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con 1 € Uy tales que yo pri = 1. Dentro de cada unidad primaria de muestreo 
seleccionada en el sorteo aleatorio con reemplazo se toma una sub-muestra (con o 
sin reemplazo). Aunque existe una pérdida de eficiencia cuando el muestreo es con 
reemplazo, ésta se compensa con una ganancia logística en el proceso de estimación 
de las varianzas requeridas para cada característica de interés. El proceso general 
de muestreo con reemplazo según Sárndal, Swensson é Wretman (1992) es el 
siguiente: 


e En la primera etapa se selecciona una muestra aleatoria de acuerdo a un 
diseño de muestreo con reemplazo tal que p,; con 1 € U; es la probabilidad 
de selección de la ¿-ésima unidad primaria de muestreo. 


e En las siguientes etapas] se mantienen las propiedades de independencia e 
invarianza sin importar si el diseño dentro de las unidades primarias selec- 
cionadas sea con o sin reemplazo. 


e Si una unidad de muestreo es seleccionada en más de una ocasión, se debe rea- 
lizar tantos sub-muestreos como veces haya sido seleccionada en la primera 
etapa. 


Resultado 7.4.2. Bajo un diseño de muestreo en varias etapas, el estimador de 
Hansen-Hurwitz para el total t,, su varianza y su varianza estimada están dados 
por 


Z 1 E ld 
La === == 7.4.6 
Ye L pr, ) 
Ni 2 Ni 
Ñ 1 bai 1 V; 

Var(?,.) = e Ec E 7.4.7 
ar(typ) mI 21 E ,) Ñ Mi += Pri ) 

A 1 mi ¿ ] ' 2 
Var(t, p) = Ne ( pe ta») 7.4.8) 


respectivamente. Donde Ei es un estimador insesgado del total de la característica 
de interés y en la unidad primaria U, i € Sr, V, = Var(tyi| S7) la varianza de 
£,¡ en la segunda etapa. Nótese que t,,p es insesgado para t, y que Var(t,,p) es 
insesgado para Var(t, p). 


Prueba. La demostración empieza definiendo las variables aleatorias 


Zo=ty/p  i€U, v=1,...,m (7.4.9) 


To=ty/p  1€U1 v=1,...,m; (7.4.10) 
Tanto Z, como A son sucesiones de variables aleatorias independientes e idénti- 


camente distribuidas. Sin embargo, respetando los principios de independencia e 
invarianza, se tiene que la esperanza está dada por 


E(Z,) = E(E(2,| S1)) = E(Zo) = ty 


1Este proceso es válido para diseños de muestreo con más de dos etapas. 
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y la varianza es 


Var(Z,) = Var(E(Z, | S1)) + E(Var(Z,| S1)) 
= Var(Z,) + E(Var(tyi/Dri | S7)) 
=Var(Z,) + E(Vi/pj,) 


Ahora, dado que 0 =z y utilizando el resultado 2.2.11, se tiene que el estimador 
insesgado de la varianza corresponde a la expresión dada en (7.4.8). ] 


Dada la simplificación en el cálculo de la varianza, Bautista (1998) propone uti- 
lizarla incluso cuando el diseño de muestreo sea sin reemplazo. Sin embargo, ad- 
vierte que este estimador generalmente sobre-estima la varianza, lo que conduce a 
intervalos de confianza más conservadores y coeficientes de variación un poco más 
altos. 


7.5 Ejercicios 


7.1 Argumente si las siguientes afirmaciones son falsas o verderas. Sustente su 
respuesta detallamente. 


(a) En la estimación de totales poblaciones, se nota que, casi siempre, Vary As2(ty,r) 
es mayor a Varras[ty). 


(b) En la estimación de la varianza para totales en diseños bietápicos, Var(UPM) 
es insesgada para Var(UPM). 


(c) En la estimación de la varianza para totales en diseños bietápicos, Var(USM) 
es insesgada para Var(USM). 


(d) Al planear un diseño de muestreo en varias etapas, se debe tener en cuen- 
ta que entre más etapas tenga el diseño, la varianza del estimador será 
probablemente más baja. 


(e) En diseños bietápicos, la varianza total del estimador es dominada por la 
varianza de la última etapa. Es decir, la varianza en la última etapa es 
mucho mayor que la varianza de la primera etapa. 


(f) En un estudio de consumo de licores se proponen dos diseños de muestreo 
en dos etapas: uno con la selección de 300 manzanas y diez personas por 
manzana; el otro con la selección de 100 manzanas y 30 personas por 
manzana. En este caso, el primer diseño de muestreo arroja una varianza 
menor al del segundo diseño. 


7.2 Para un diseño de muestreo en dos etapas, en donde la primera etapa se lleva 
a cabo un diseño PP'I' con reemplazo y en la segunda etapa se realiza un 
diseño MAS en cada UPM seleccionada, proponga un estimador insesgado 
para el total poblacional (Ayuda: utilice el estimador de Horvitz-Thompson 
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7.3 


7.4 


en la segunda etapa y el estimador de Hansen-Hurwitz en la primera etapa). 
Demuestre que este estimador es insesgado para el total poblacional t,, (Ayuda: 
utilice las propiedades de la esperanza condicional) y defina la varianza para 
este estimador (Ayuda: utilice las propiedades de la varianza condicional). 


Escriba las fórmulas del estimador del total y del estimador de la varianza 
del total para los siguientes diseños de muestreo. Defina estrictamente cada 
término y notación que utilice en las fórmulas. 


(a) Diseño en tres etapas: MAS en cada una de las etapas. 


(b) Diseño estratificado con tres estratos: uno de inclusión forzosa, otro con 
diseño PPT y otro con diseño MAS. 


(Tillé, 2006. Ej 5.5) Suponga que un estadístico desea estimar el ingreso total 
de las personas en un país. Para esto, él lleva a cabo un diseño de muestreo en 
dos etapas, en donde la primera etapa se seleccionan municipios con un diseño 
PPT con probabilidad de selección proporcional al número de habitantes del 
municipio y en la segunda etapa se realiza un diseño MAS en cada municipio. 
En la primera etapa, se seleccionaron m, = 4 municipios entre los N, = 30 
municipios en el país y en la segunda etapa, se incluyeron n¿ personas de los 
N; habitantes del municipio ¿-ésimo (¿= 1,2,3,4). Suponga que por fuentes 
oficiales, se conoce que el número total de personas en el país es de N = 10000. 
Los datos obtenidos se muestran en la tabla 


Tabla 7.2: Ingreso de cada persona para el ejercicio 7.3 


Municipio Ni ni yk 
105 
118 
102 
110 


108 
117 
2 23 5 134 
108 
119 


201 
201 
210 
206 


157 
141 
129 
170 
104 
110 


1 20 4 


(a) Estime el ingreso total en el pais. Reporte el coeficiente de variación esti- 
mado. 
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(b) Estime el ingreso medio en el pais y reporte el coeficiente de variación 
estimado. 


7.5 Suponga que por alguna circunstancia, un extraterrestre desea estimar el 
número promedio de patas que tiene un perro en una ciudad. La ciudad está 
dividida en dos áreas geográficas, la zona norte y la zona sur. Para llevar a 
cabo la estimación, él planea un diseño de muestreo en dos etapas así: De las 
N¡ =2 zonas geográficas de la ciudad, va a seleccionar una muestra aleatoria 
simple de n7 = 1 unidades primarias de muestreo. Se sabe que en el norte hay 
N, = 30 perros y en el sur hay Na = 10 perros. Sea cual sea la unidad prima- 
ria seleccionada, se seleccionará una sub-muestra aleatoria simple de n¿ = 2 
perros (¿ = 1,2) y se realizará la medición del total de patas en cada perro 
incluido en la muestra. 


(a) Si se seleccionó la zona norte, reporte la estimación del total de patas en la 
ciudad ty y la estimación del promedio de patas en la ciudad Ys = ty /N-. 


(b) Si se seleccionó la zona sur, reporte la estimación del total de patas en la 
ciudad ty y la estimación del promedio de patas en la ciudad Ys = ty /N-. 

(c) Para este diseño diseño de muestreo, reporte la varianza teórica del esti- 
mador ys. 


(d) ¿Es una buena estrategia escoger al estimador Ys para inferir acerca del 
promedio de patas de los perros en la ciudad? 


Parte II 


Inferencia asistida por 
modelos y el uso de la 
información auxiliar 
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Capítulo 8 


Estimación de parámetros 
diferentes al total 


Naturalmente, el investigador está interesado en encontrar las propiedades 
estadísticas de un estimador. Si éste tiene una forma lineal, no se necesitan 
nuevas herramientas. Sin embargo, los parámetros que se encuentran en 
la práctica corresponden a funciones no lineales de totales. 


Carl-Erik Sárndal (1992) 


En los capítulos anteriores, nuestra atención estuvo centrada en la búsqueda del 
mejor diseño de muestreo con los estimadores de Horvitz-Thompson, para muestreo 
sin reemplazo y estimadores de Hansen-Hurwitz, para muestreo con reemplazo. En 
nuestra travesía hemos pasado por los diseños de probabilidad fija e igual. Para 
mejorar la eficiencia de la estrategia hemos revisado los diseños de probabilidades 
proporcionales y diseños estratificados, con la ayuda de información auxiliar de tipo 
continuo o discreto. Para mejorar la eficacia del plan operativo y la dispersión de 
la muestra en la población se han propuesto diseños de muestreo complejos de 
conglomerados y en varias etapas. 


El lector debió notar que en la primera parte de este texto se ha seguido con fideli- 
dad la regla de oro del diseño de encuestas y es utilizar estrategias de muestreo que 
induzcan probabilidades de inclusión o selección, según sea el caso, proporcionales 
al valor de la característica de interés. De este modo, si la encuesta está enfocada 
en una característica de interés cuya dispersión es muy baja, como el número de 
hijos en niveles socioeconómicos altos, que generalmente no es mayor a tres, es 
posible utilizar un muestreo aleatorio con probabilidades simples. De otra manera 
y con la ayuda de información auxiliar, es posible seguir la regla de oro mediante la 
construcción de probabilidades proporcionales en la etapa de diseño. Sin embargo, 
esta ventaja del marco de muestreo no sólo se puede utilizar en la etapa de diseño 
sino también en la etapa de estimación. 
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8.1 Fundamentos teóricos 


Siguiendo la filosofía del título que lleva este texto, nos encaminaremos en la 
búsqueda de la mejor estrategia de muestreo mejorando el estimador. En esta 
etapa del camino, se supone que el lector conoce el comportamiento estructural 
de la población y está en capacidad de proponer el mejor diseño de muestreo, de 
acuerdo a la generosidad del marco de muestreo. 


Por supuesto, en algunos estudios multi-propósito, en encuestas complejas y en 
casos particulares, es necesario obtener estimaciones para parámetros diferentes 
a los totales. Por ejemplo, razones de dos características de interés, medianas 
y percentiles poblacionales, parámetros de regresión, coeficientes de correlación, 
varianzas, covarianzas, índices, etc. Como lo afirma Bautista (1998), la metodología 
que se propone para estimar estos parámetros poblacionales es reescribirlos como 
función de totales poblacionales. Así, si el parámetro a estimar es B, lo debemos 
llevar a la siguiente forma 


B= fíti,to,...,tg) (8.1.1) 


Donde cada ty q = 1,...,Q representa un total de las características de interés o 
un total de una función de las características de interés. El principio de estimación 
de este parámetro está en obtener estimadores insesgados dy q=1,...,Q tal que 
T es estimado por 


BS PHistenaato) (8.1.2) 


Nótese que la función f puede ser lineal o no. Un resultado muy conocido de la 
inferencia estadística clásica nos indica que si la función f es una función lineal 
entonces B toma la forma 


Q 
B=a0 +) asty (8.1.3) 
q=1 


Por tanto, un estimador insesgado de B está dado por la siguiente expresión 


B=a0 +) así, (8.1.4) 


Si en la estimación de B hemos utilizado estimadores de tipo Horvitz-Thompson, 
entonces es posible escribir (8.1.3) como 


] E 
Br=a0+ y) > (8.1.5) 


donde Ex = pe AgYak y el valor del k-ésimo elemento en la q-ésima característica 
de interés está dado por y;x. Siguiendo los principios del estimador de Horvitz- 
Thompson, la varianza de B, se puede expresar como 
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Ex El 
Var(B,) = 2 Am E (8.1.6) 
Un estimador insesgado para la expresión (8.0.5) está dada por 
PE Ax Ex E 
Vari(B,) = 7 Y EZ (8.1.7) 
3 Tri Tk TI 


Nótese que cuando la función f es lineal no se involucran nuevos principios de 
estimación. Por el contrario, cuando f no es lineal, el estimador propuesto es la 
misma expresión (8.1.2); sin embargo, en algunos casos, no es posible ni calcular, 
ni estimar la varianza debido a la complejidad matemática teórica del desarrollo y 
es necesario recurrir a métodos que permitan llegar a una expresión que aproxime 
la varianza. Es posible aproximar la varianza utilizando las técnicas de linealiza- 
ción para estimar la precisión de estos estimadores. Éstas han sido introducida 
por Woodruff (1971). Algunas aplicaciones en la teoría de muestreo han sido desa- 
rrolladas, entre otros, por Binder (1983) y Deville (1999). El método más común, 
aunque no el único, es el de linealización por polinomios de Taylor. 


8.1.1 Aproximación de una función por polinomios 


En Apostol (1963, p. 417) se presentan las condiciones para que una función f se 
pueda aproximar mediante un polinomio. Entre ellas tenemos que la función f sea 
derivable y que sus derivadas deben estar definidas en el punto x = a. 


Resultado 8.1.1 (Teorema de Taylor). Si una función se puede aproximar me- 
diante un polinomio, entonces éste estará definido por 


"a "a (n) 
10) =109)+ L% a a+ E a di+...4 E (1-a)" +... (8.1.8) 
Prueba. Sea 
fa =co+alr—a+c(e-a?+... (8.1.9) 


Derivando sucesivamente, tenemos 
fU(x) =c1 +2co(2—a)+3(2- a)? +... 
FO (2) = 2c, + 6eg(a — a) + 12c4(a— a) +... 
FO (2) = 6c3 + 24c4(a — a) + 60cs (2 — a)? +... 


M2) = ntc, + (n+ DiCry (a —a) + (n+ 2) Cr2 (0 ay +... 
Haciendo x = a tenemos 
F(a) =c0 fU(a) =c1 
f9 (a) = 2c> O (a) = 6cz 


y en general £()(x) = n!c,. Sustituyendo en (8.1.9), se llega a la aproximación 
mediante polinomios de Taylor como en (8.1.8). E 
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Para funciones vectoriales, existe el siguiente teorema de Taylor 


Resultado 8.1.2. Para una función vectorial f, se tiene que la aproximación de 
Taylor de primer orden de la función f en un punto (vectorial) a está dada por 


10) 2 $(a) + (US) (xa), (8.1.10) 
con x= (%1,:*- ,2Q) y Y f denota el gradiente de la función f; esto es, el q-ésimo 
componente de y f está dado por 

Of(u1, cn ,TQ) 
ne : 


Ejemplo 8.1.1. Es posible representar a la función sin(x) en series de potencias 
de x (es decir en el punto a = 0). Para este caso particular se tiene que: 


f(x) =sin(x) f(0) =0 
FU (2) =cos(x) A (IE 
[O (1) =—sin(x) FW (0) =0 
FO (2) = —cos(x) FW (0) =-1 
FU (2) = sin(x) 1(0)=0 


, 0 -1 0 ll 
sin(1) =0+ 14 e 3 a+ a 5 5 y 
e 5 
=XT ET + ajo + 
E Y EDPO 
(Qn-— 1)! 


Sin embargo, no solamente debemos revisar si la función y sus derivadas están 
definidas en un punto x = a, también debemos revisar la convergencia de la serie 
de potencias. Para esto utilizaremos la prueba de convergencia de la razón definido 
en Apostol (1963, p. 363). Esta prueba argumenta que si el resultado de R, definido 
por 


Sn+1 


R= lím | l (8.1.11) 


n—>00 


n 


es menor que uno, entonces la serie converge absolutamente. Para este ejemplo 
particular, tenemos que 
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fe) A AAA (Aten 
R= lí 

n—>00 (Q(n+1) —- 1)! (2n — 1)! 

, am (2n—1)! 
= lím 

n>00 |(2n +1)! a2n=1 

1 

= a? lím | =—|= 

es 2n(2n +1) d 


Por lo tanto, la serie converge absolutamente y tendríamos una buena aproxima- 
ción a f(x) = sin(x) al cortar la serie y dejar un residuo que sería despreciable. 


Aplicación en muestreo 


Mediante esta técnica es posible aproximar la varianza de los estimadores que 
no son funciones lineales de totales. Aunque en el ámbito de la inferencia en po- 
blaciones finitas, no existe una teoría asintótica unificada, sí existen resultados 
particulares para los diseños de muestreo más simples Madow (1948) y para al- 
gunos diseños de muestreo con probabilidades proporcionales Rosén (1972). Lohr 
(2000) plantea los siguientes pasos para construir un estimador linealizado de la 
varianza de una función no lineal de totales: 


. Expresar el estimador del parámetro de interés B como una función de esti- 


madores de totales insesgados. Así, B= f(t1,t2,...,tq). 


. Determinar todas las derivadas parciales de f con respecto a cada total 


estimado tor y evaluar el resultado en las cantidades poblacionales t¿. Así 


ay = Otis, ta) (8.1.12) 
0%, 


t1=t1,..,fQ=tQ 


. Aplicar el teorema de Taylor para funciones vectoriales para linealizar la 


estimación B con a= (t1,to,--- ,to)'. En el paso anterior, se vio que yB' = 
(a1,--* ,4g). Por consiguiente se tiene que 
y Q 
B= f(t1,...,.tq) B +) agltg — ty) (8.1.13) 
q=1 


. Definir una nueva variable Ej, con k € S al nivel de cada elemento observado 


en la muestra aleatoria. 


Q 
Ex = Y agvar (8.1.14) 
q=1 


. De (8.1.12) y (8.1.13) se tiene que, si los estimadores +, son estimadores de 


Horvitz-Thompson, una expresión que aproxima la varianza de B está dada 
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por 


Para encontrar una estimación de la varianza de B , no es posible utilizar directa- 
mente los valores Ez, porque éstos dependen de los totales poblacionales, pues las 
derivadas a, se evalúan en los totales poblacionales que son desconocidos. Por con- 
siguiente, los valores Ex se aproximan reemplazando los totales desconocidos por 
los estimadores de los mismos. Siendo ex la aproximación de la variable linealizada 
dada por 


Q 
ex = Y agar (8.1.15) 


donde á, corresponde a un estimador de az. Por otro lado, Deville (1999) ha 
probado que la aproximación de la varianza lograda mediante ez es válida para 
grandes tamaños de muestra. Si los estimadores de son estimadores de Horvitz- 
Thompson, se puede usar de manera general el estimador de la varianza de Horvitz- 
Thompson, así 


Al € el 


Var(iyn) = NY REEL (8.1.16) 
Ss 


Tkl Tk TI 


Como siempre, si el diseño de muestreo es de tamaño fijo, se pueden utilizar las 
respectivas expresiones dadas en el capítulo 2 de este texto. Sárndal, Swensson éz 
Wretman (1992) advierten que este método tiende a sub-estimar la varianza real 
cuando el tamaño de muestra es pequeño. Por otra parte, una desventaja de este 
método es la particularidad de cada aproximación sujeta a la forma funcional del 
parámetro de interés. De esta manera, es necesario determinar expresiones analíti- 
cas particulares. Esto genera desgaste cuando se trabaja con encuestas complejas. 
El siguiente resultado resume el proceso de inferencia general para la estimación 
de una función linealizada de totales. 


Resultado 8.1.3. Siendo B = f(t1,t2,...,to) es una función de totales pobla- 
cionales, entonces un estimador aproximadamente insesgado de B, su varianza 
aproximada y una estimación insesgada para esta última están dadas por las si- 
guientes expresiones 


Ba =- id ... to, il) (8.1.17) 
Ex Er 

A Ax .1.1 

Vado as 6219 

Var(Br) = Y En SEN (8.1.19) 
S Trkl Tk TL 


respectivamente, con Las el estimador de Horvitz-T'hompson de t¿. y tanto Ey, 
como ex se encuentran dados por las fórmulas (8.1.14) y (8.1.15), en estricto orden. 
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Prueba. En primer lugar, 


Q 
E(Br) 2E(B + y aq (tq — tq)) 
q=1 
Q 
=B+ e aq E(tg — ty) 
q=1 
=B 
puesto que ly es insesgado para ty, para q =1,-*+ ,Q. Por otro lado, 


Q 
Var(B,) = Var y aga) 


= Var Y ay Y EE) 

= Var No 

LA 
U 


Tk Ti 


8.2 Estimación de una razón poblacional 


Un caso especial de una función no-lineal de totales es la razón poblacional B. 
Esta se define como el cociente de dos totales poblacionales de características de 
interés z e y. Así 


B=2=Y% (8.2.1) 


Lohr (2000) plantea que técnicamente siempre se estimará una razón cuando se 
estime un promedio de un dominio. Nótese que la característica de la razón es que 
tanto el denominador como el numerador son desconocidos, y aunque se conocie- 
ran, se prefieren estimar. Bautista (1998) da ejemplos muy concretos en lo que se 
utilizó la estimación de razones. Entre ellos están los siguientes: 


e Estudios electorales: para estimar la intención de voto por un candidato 
se pregunta por qué candidato votaría el encuestadd'| Dado que no todas 
las personas entrevistadas pueden votar, incluso algunos de ellos decidirán 
no votar por omisión. El numerador de esta razón está dado por el total 
de personas que votarían por el candidato, mientras que el denominador 
de la razón sería el total de personas que participarían activamente en las 
elecciones. Nótese que la tasa de abstención también está dada por una razón. 


lBajo el supuesto de que las elecciones se realizarían el mismo día de la entrevista. 
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El numerador correspondería al total de personas que, sin tener restricción 
alguna, han decidido no participar en las elecciones. El denominador estaría 
dado por el total de personas que están aptas para votar. 


e Investigación de medios: es importante para los canales de televisión tener 
un estimativo del total de personas observan algún programa de televisión 
en determinado momento. Con esta información, los canales cobran más o 
menos dinero a las empresas que deseen pautar un comercial a determinada 
hora. Si el programa televisivo tiene una audiencia alta, el canal cobrará 
más por la pauta de un comercial. Para estandarizar esta información, se ha 
creado un índice llamado «rating> que se define como la razón entre el total 
de personas que están observando un programa de televisión en un minuto 
determinado sobre el total de personas que están observando televisión. 


e Investigación social: uno de los indicadores económicos que más llama la 
atención en el desarrollo de una región o país es la tasa de desempleo. Hay que 
tener en cuenta que no todos los habitantes de una región están aptos para 
trabajar, pues existe un rango de edad para ello. Este indicador económico 
está definido como el total poblacional de personas que se encuentran en 
edad laboral pero que carecen de un empleo sobre la cantidad de personas 
que pertenecen a la población económicamente activa. 


Para la estimación de razones se propone el siguiente resultado que da cuenta de 
las expresiones teóricas que deben utilizarse para tal fin. 


Resultado 8.2.1. Un estimador para la razón poblacional B de dos características 
de interés, su varianza y su varianza estimada están dados por 


BEE (8.2.2) 
; Es E 
AVar(T,) = Y Y A (8.2.3) 
U 
Var(t,n) = Aru ea el 8.2.4 
ata (8.2.4) 
Ss 


l 1 R e 
donde Ej, = q (Ur Bz») y ex = +—(y1—Bz;) Nótese que B es aproximadamente 


T 2,T 


insesgado para B al igual que Var(ty.x) lo es para AVar(t,,) 


Prueba. Siguiendo los pasos de linealización de la sección anterior tenemos que el 
estimador propuesto es una función de dos totales estimados de las características 
de interés 


Y, 


3 
> 
> 


B= 
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Calculando las derivadas parciales 


qa] = z 
Oty,r tir=ttia=te 
En 1 
= 7 
3% ias ds r) 
dq = ES 
Oz, Eur=tysbam=tz 
_ ty 
2 


Utilizando la aproximación de la razón mediante la expresión (8.1.12) se tiene que 


> ¡EA Dion 
B=B+ lbyn— ty) Eon t.) 


por tanto al evaluar la esperanza se tiene inmediatamente la propiedad del inses- 
gamiento aproximado. Por otro lado, definiendo la nueva variable linealizada dada 
en (8.1.14), tenemos que 


= Vos 
Ej = La E (Y; — Bzx) (8.2.5) 
cuya aproximación es 
1 Ñ 
Ek = 5 (Yr A Bzx) (8.2.6) 


Por tanto la varianza se escribe como 


AVar(B) = Var d5 a) (8.2.7) 


Ss 
Utilizando los principios del estimador de Horvitz-Thompson se llega a los resul- 


tados de la aproximación de la varianza y de la varianza estimada. mn 


No es difícil probar que cualquiera que sea el diseño de muestreo utilizado siempre 
se cumplen las siguientes condiciones 


NY E, =0 (8.2.8) 
U 


€k a 
Y N 0 (8.2.9) 


S 


8.2.1 Propiedades 


Aunque la característica del insesgamiento es deseada en los estimadores, no se 
debe exagerar descartando algunos estimadores que tengan un poco de sesgo. En 
algunos casos la forma funcional del parámetro de interés es tan compleja que re- 
sulta muy complicado obtener un estimador exactamente insesgado. Por otro lado, 
puede existir un estimador con poco sesgo y con menor error cuadrático medio que 
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un estimador insesgado. De hecho, Sárndal, Swensson € Wretman (1992) afirman 
que son muchos los estimadores aproximadamente insesgados que se utilizan en la 
práctica. También afirma que se debe mantener siempre presente la regla de Hájek 
que proclama que: 


Los estimadores con un sesgo considerable son pobres sin importar qué 
otras propiedades puedan tener. 


Como esta clase de estimadores son aproximadamente insesgados, es necesario 
evaluar otro tipo de bondades como la consistencia dada en la siguiente definición. 


Definición 8.2.1. Un estimador T' es consistente en el sentido Cochran para un 
parámetro de interés T' si s = U implica que el estimador reproduce el parámetro 
de interés. Es decir T' = T. 


Nótese que bajo la clase de diseños MAS, el estimador de Horvitz-Thompson es 
consistente pues si s = U, entonces Tk = 1, por lo tanto 


lun = Y E = Y gn =ty (8.2.10) 


kEes keU 


Sin embargo, bajo el diseño de Bernoulli, el estimador de Horvitz-T'hompson no 
conserva la propiedad de consistencia. Suponga que las probabilidades de inclusión 
de primer orden están dadas por 7 = 0.1. El evento s = U ocurre con probabilidad 
0.1Y, para el cual el estimador de Horvitz-Thompson tomaría la siguiente forma 


= Y LE=10xt, (8.2.11) 


Nótese que bajo este escenario, él estimador de razón B es consistente. 


8.2.2 Casos particulares 


Los principios del estimador de Horvitz-Thompson se establecen para llegar a una 
aproximación y estimación de la varianza del estimador. Para los siguientes diseños 
de muestreo se tienen las siguientes propiedades 


Muestreo aleatorio simple 


Para este diseño de muestreo en particular las probabilidades de inclusión de pri- 
mer orden están dadas por Tr = 3;. Los estimadores de Horvitz-Thompson para 
las dos características de interés están dados por En = Nys y e = Nzs. Por lo 
tanto se tiene el siguiente resultado. 


Resultado 8.2.2. Bajo muestreo aleatorio simple, el estimador de la razón po- 
blacional B, su varianza y su varianza estimada están dados por 


BE (8.2.12) 
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a N? n 9 
AVarmas(B) = — (1 AR 5) Sy (8.2.13) 

— a N? n 9 
Varmas(B) == (1 Z y) s2, (8.2.14) 


respectivamente, con Siy y S?, el estimador de la varianza de los valores de la 
variable linealizada E y su aproximación e en el universo U y en la muestra s. 
1 1 a 
Recuerde que Ej. = EU — B2x) y ex = (Un — By). 
T 


2,TT 


Muestreo aleatorio simple en dos etapas 


Para este diseño de muestreo los estimadores de Horvitz-Thompson para las dos 
características de interés están dados por ty = (N1/nr) Ei NiUs, Y ten = 
(N1/n1) Vies, NiZs,- Se tiene el siguiente resultado. 


Resultado 8.2.3. Bajo muestreo aleatorio simple, el estimador de la razón po- 
blacional B, su varianza y su varianza estimada están dados por 


B= (8.2.15) 


a N? NÑ N? á 
AVarum(B) = —= ( a y) Sp, + > O ( de JE (8.2.16) 


a A N? NT N N? Ni 
Varum(B) = — ( - y) Sos + y AN a) Ss, (62.17) 


respectivamente. Donde Si.U, es la varianza poblacional de los totales tp; 1 € Ur 
de todas y cada una de las unidades primarias de muestreo y Ss. es la varianza 
poblacional entre los valores de la variable E que toman los elementos dentro de 
cada unidad primaria de muestreo. El razonamiento es similar con las cantidades 


Diseños de muestreo con probabilidad proporcional 


Siguiendo con la regla de oro de la estimación de totales, tanto en estrategias que 
utilicen diseños de muestreos sin reemplazo como Poisson o PT junto con el es- 
timador de Horvitz-Thompson y en diseños de muestreo con reemplazo junto con 
el estimador de Hansen-Hurwitz, era conveniente que el marco de muestreo adjun- 
tara información auxiliar de tipo continuo para poder construir las probabilidades 
de inclusión o de selección según el caso. 


Por supuesto, en este contexto particular de estimación de razones, el marco de 
muestreo debe ser aún más generoso tanto así que permita la inclusión de informa- 
ción auxiliar continua que deberá estar correlacionada no con las características 
de interés que intervienen en la razón sino con la variable linealizada E. De es- 
ta forma, si la variable correlacionada con E es E*, entonces las probabilidades 
óptimas de selección estarían dadas por 
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JE 
pp = =E (8.2.18) 
ta» 


Un razonamiento similar se hace con los diseños de tamaño fijo que utilizan pro- 
babilidades proporcionales. 


8.2.3 Estimación de un promedio 


Uno de los motivos por los cuales se utiliza el estimador B es el desconocimiento 
del total poblacional N en la estimación de la media poblacional yy. Incluso si N 
es conocido, es preferible ignorarlo como lo demuestra el siguiente ejemplo (Lohr 
2000). Suponga que por alguna circunstancia, un extraterrestre desea estimar el 
número promedio de patas que tiene un perro en una ciudad. La ciudad está 
dividida en dos áreas geográficas, la zona norte y la zona sur. Para llevar a cabo la 
estimación, él planea un diseño de muestreo en dos etapas así: De las N7 = 2 zonas 
geográficas de la ciudad va a seleccionar una muestra aleatoria simple de n7 = 1 
unidades primarias de muestreo. Se sabe que en el norte hay N¡ = 30 perros 
y en el sur hay Na = 10 perros. Sea cual sea la unidad primaria seleccionada, 
se seleccionará una sub-muestra aleatoria simple de n; = 2 perros ¿ = 1,2 y se 
realizará la medición del total de patas en cada perro incluido en la muestra. 


Suponga que se ha seleccionado la zona norte. Curiosamente, en esta zona cada uno 
de los perros tiene igual número de patas, 4. El estimador de Horvitz-Thompson 
del total de patas en la zona norte está dado por o = 28 = 120. Luego 
un estimador insesgado del número total de patas en la ciudad está dado por 
A 2120 = 240. Al dividir esta estimación por el número total de perros en la 
ciudad encontramos la sorpresa de que la estimación de este promedio es 6. 


mn tu 240 

YU = NA 

¡¡¡6 patas!!!. Si la muestra del extraterrestre hubiera consistido en la zona sur, el 
estimador de Horvitz-T'hompson del total de patas en la zona sur estría dado por 
24,7 28 = 40. El estimador insesgado del número total de patas en la ciudad 
estaría dado por bn = 240 = 80. Al dividir esta estimación por el número total 
de perros en la ciudad encontramos que la estimación de este promedio es 


, burn 80 
UY: T — pe A a. > 2 
ii ET 


Sin embargo, a pesar de estos resultados el estimador es efectivamente insesgado 
porque la esperanza corresponde al parámetro poblacional pues (2 + 6)/2 = 4. 
Seguramente, el extraterrestre no hizo uso de la mejor estrategia de muestreo. 
No por la escogencia del diseño, que induce probabilidades de inclusión constantes 
como lo son los valores de la características de interés, sino por el contrario, debido 
a la escogencia del estimador. Si el estimador utilizado hubiese sido B = Js, 
definido en (2.2.15), se encontraría que la estimación sería 


E 
Ys Ñ 60 
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Al seleccionar la zona norte, debido a que N = 230 = = 60. Ahora, si hubiese sido 
seleccionada la zona sur, tendríamos que col 210 = = 20 y por consiguiente 

Zur ias 80 

Ys Ñ 20 


Nótese que, para este caso particular, el estimador Ys es insesgado y de varianza 
nula. El siguiente resultado amplia las propiedades de este estimador que en la 
literatura clásica es llamado promedio muestral ponderado. 


Resultado 8.2.4. Un estimador del promedio poblacional yy, definido como una 
razón, su varianza y su varianza estimada están dados por 


AE Ne/Y = (8.2.19) 
Ss Ss 


T 


AVar(Gs) = 55 SA 2 a (2 = a) € 2) (8.2.20) 


At ES e 5) (2 = 15) (8.2.21) 
Trl TT 


Este estimador coincide con el estimador clásico yy en diseños de muestreo como 
el aleatorio simple o el aleatorio estratificado. 


Var(7. (Us) 


respectivamente. 


Estimación de un promedio en un dominio 


Es la regla, más que la excepción, que el tamaño absoluto N¿ de un dominio en 
estudio sea desconocido. En la sección 3.2.4. se dieron las bases para la estimación 
del promedio de la característica de interés en un dominio cuando se usaba mues- 
treo aleatorio simple, en esta sección se darán las pautas necesarias para realizar 
esta estimación bajo cualquier diseño de muestreo y con el desconocimiento de 
N¿- Siguiendo con la notación de la sección 3.2.4., en donde se definió la función 
indicatriz del dominio U¿ dada por (3.2.22) y se construyó la variable yax, se tienen 
los siguientes resultados para la estimación de Ng y para la estimación del total 
de la característica de interés t,¿ en el dominio Uq. 


Resultado 8.2.5. Bajo cualquier diseño de muestreo, el estimador de Horvitz- 
Thompson para el tamaño absoluto de un dominio Nq, su varianza y su varianza 
estimada están dados por 


Ni (8.2.22) 
e 
A 2 VA 
Var(Ñan) = E (8.2.23) 
U 
Var(Ñan) = Art Zak Za (8.2.24) 
A a E 


respectivamente. 
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Resultado 8.2.6. Bajo cualquier diseño de muestreo, el estimador de Horvitz- 
Thompson para el total de la característica de interés tya en el dominio Ug, su 
varianza y su varianza estimada están dados por 


A ak 


tyarn=2_ (8.2.25) 
S k 
V = Y Y AER (8.2.26) 
ar( bid, a! 5 yA 
Var A (8.2.27) 
ar( bd, m) E ás 


respectivamente. 


Una vez que los anteriores parámetros son estimados y siguiendo la expresión 
(3.2.23) para el promedio de un dominio, procedemos a estimarlo mediante el 
siguiente resultado. 


Resultado 8.2.7. Un estimador del promedio de un dominio yy, , definido como 
una razón, su varianza y su varianza estimada están dados por 


y A sc (8.2.28) 


ds = Te 


AVar(7, (Gs) = 2 0 2 Eq (te a Ha) (2 a) (8.2.29) 


qa (e - Es ) (2 Es) (8.2.30) 


En el caso específico de muestreo aleatorio simple tenemos que la expresión del 
estimador alternativo del promedio del dominio dada por (3.2.26) coincide con los 
anteriores resultados. 


Var(7, (Ys) 


e 


respectivamente. 


Ejemplo 8.2.1. Suponga que para la población de ejemplo U se tiene el conoci- 
miento de cada valor de las características de interés x e y. De tal forma que la 
razón poblacional entre las dos es 0.7 como lo muestra la siguiente salida. 


> y <- c(32,34,46,89,35) 
> x < c(52,60,75,100,50) 
> B <- sum(y)/sunm(x) 

> B 

[11 0.7002967 


Con una muestra aleatoria simple de n = 2, realice el cálculo léxico-gráfico del 
estimador de la razón B. Repita el ejercicio con una muestra de n = 4 y, por 
último, con una enumeración completa o censo. Concluya que este estimador es 
consistente. 
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8.2.4 Marco y Lucy 


Siguiendo con el estudio del sector industrial y con base en las anteriores inves- 
tigaciones, el gobierno quiere estimar la razón entre el ingreso total del sector 
industrial con respecto al número de trabajadores del mismo. El anterior es un 
índice de productividad del sector y describe cuánta ganancia le aporta un sólo 
empleado al sector. Para el gobierno este índice es importante pues con él se cons- 
truyen políticas de distribución y apoyo financiero entre los sectores económicos 
del país. 


En los capítulos anteriores hemos aprendido cómo sacar muestras y realizar el 
proceso de estimación para las estrategias propuestas. En este capítulo vamos a 
hacer uso de las funciones ya establecidas en el paquete TeachingSampling para 
calcular las estimaciones y estimar las respectivas varianzas. Suponga que se utilizó 
un diseño de muestreo aleatorio simple y que la muestra seleccionada está dada en 
la respectiva sección de Marco y Lucy en el segundo capítulo de este texto. Con 
ayuda de las funciones S.SI y E.SI del paquete TeachingSampling?] se realiza la 
selección de la muestra y la estimación de los totales, respectivamente. Después de 
seleccionar la muestra, procedemos a estimar el total poblacional con la función 
pertinente. Recuérdese que la salida de la función de estimación es de la siguiente 
forma 


> E.SI(N, n, característica) 


Total estimado Posición 1 
Varianza Posición 2 
coeficiente de variación Posición 3 


Una vez ajustados los parámetros de la función se ingresan los valores de la carac- 
terística de interés y el resultado de la función es una matriz de estimaciones. En 
la Posición 1 encontramos la estimación del total, en la Posición 2 encontramos 
la varianza estimada y en la Posición 3 encontramos el coeficiente de variación 
estimado. Para tener acceso a cada uno de estos datos de manera independiente 
es necesario indexar la función, de esta manera si se quiere tener solamente la 
estimación del total poblacional de la característica ingreso es necesario escribir el 
siguiente comando: E.SI(N,n, Income) [1]. 


En donde el índice [1] implica el primer elemento de la función. Para lograr 
la estimación de la razón entre las características Ingreso y Empleados debemos 
estimar sus respectivos totales con ayuda de la función E.SI y realizar el cociente 
entre ellos. 


> ty <- E.SI(N, n, Income) [1] 

> tz <- E.SI(N, n, Employees) [1] 
>B <- ty/tz 

> B 

[1] 6.920102 


2Por supuesto que el diseño de muestreo puede variar. Si se hubiese usado un diseño aleatorio 
en dos etapas las funciones que se deberían utilizar serían S.SI para seleccionar la muestra y 
E.2ST para realizar las estimaciones. 


270 8. Estimación de parámetros diferentes al total 


Aunque se dispone de la estimación debemos realizar la estimación de la apro- 
ximación de la varianza. Para este propósito creamos las variables ez k € S e 
introducimos sus valores en la función E.SI para llegar a la estimación de la va- 
rianza. Como se mencionó anteriormente, este valor de la estimación de la varianza 
se encuentra indexado en la segunda posición de la función. 


> ek  <- (1/tz)*(Income-B*Employees) 
> AVar <- E.SI(N, n, ek) [2] 

> cve <- 100*sgqrt(AVar)/B 

> cve 

[1] 2.261207 


El resultado de la estimación se presenta en la tabla 8.1. Nótese que el valor 
estimado se encuentra muy cerca del parámetro de interés. 


Tabla 8.1: Muestreo aleatorio simple: estimación de la razón de interés. 


Variable Razón poblacional Razón estimada cve%  Desv.% 
Razón 6.81 6.92 2.26 1.57 


Por tanto se estima que cada empleado aportó réditos en el sector industrial hasta 
por un monto de 6.92 millones de dólares en el último año fiscal. Resultaría intere- 
sante saber si esta razón es constante para cada nivel del sector o si se presentan 
diferencias en la razón para cada estrato. Este tema será tratado en el próximo 
capítulo. 


Teorema del límite central 


Al meditar en la confiabilidad y precisión del estimador de la razón, surge la si- 
guiente pregunta: ¿es aplicable el uso del teorema del límite central en la estimación 
por razones? 


Siguiendo con los resultados empíricos, en esta sección se realiza una simulación 
de Monte Carlo, de tamaño 2000, con las variables Ingreso y Empleados. Para 
cada simulación, se selecciona una muestra y se estima la razón pertinente. El 
resultado de la simulación es un conjunto de 2000 estimaciones que se plasmaron 
en histogramas. El ejercicio se realizó para tamaños de muestra 2, 5, 20, 50, 200 y 
1000. El resultado gráfico de la simulación se muestra en la siguiente figura. 


Para las primeras simulaciones, en donde el tamaño de muestra es pequeño, se nota, 
que la distribución de la razón es sesgada a la derecha y, a medida que el tamaño de 
muestra crece, la distribución se torna simétrica con respecto al verdadero valor. 
Por lo anterior, empíricamente y para este ejemplo en particular, se ha probado 
que la razón entre estas dos características converge a una distribución normal a 
medida que el tamaño de muestra se incrementa. 


8.3 Estimación de una mediana 


Una medida de tendencia central comúnmente utilizada es la mediana. Esta medida 
de centralidad, a diferencia del promedio poblacional, no es fácilmente influenciada 
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Figura 8.1: Distribución de muestreo de la razón estimada. 


por datos atípicos cuando el tamaño poblacional es pequeño y, por esto, se conoce 
como una medida robusta. La mediana es el valor M que divide la población en 
dos mitades. Por tanto, la mitad de los valores de la característica de interés estará 
por encima de M y la otra mitad estará por debajo de M. La construcción de esta 
y otras estimaciones tiene como base la función de distribución poblacional F(-). 


Definición 8.3.1. Para cualquier valor y, la función de distribución poblacional 
F(y) es la proporción de elementos en la población para los cuales se cumple que 
Y < y. Esta función creciente puede escribirse como 


_ +A, 
FW == (8.3.1) 
con Ay dado por 
Ay =(k | yx < y,k € U) (8.3.2) 


De la anterior definición resulta claro que cualquier percentil"] Q¿con0<qs<l 
se puede escribir en función de F(-). De esta manera, se tiene que 


Q, =F (q) (8.3.3) 


En particular la mediana puede escribirse como M = Qu, = F7*(0.5). Cuando 
se ha realizado un diseño de muestreo y la información de la muestra seleccionada 
es registrada, el procedimiento genérico para la estimación de cualquier percentil 
sugerido en Sárndal, Swensson éz Wretman (1992, p. 197) consta de los siguientes 
pasos: 


1. Obtener la, función de distribución estimada con los datos de la característica 
de interés F(y) 


3Valor poblacional para el cual el q% de los valores de la característica de interés en la 
población cumple que yx < y. 
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2. Estimar el percentil mediante F —1(q). En particular la estimación de la me- 
diana estaría dada por F7*(0.5). 


Como lo indican los siguiente resultados no se involucran nuevos principios de 
estimación en el paso 1 del anterior numeral. El procedimiento para estimar la 
función de distribución puede verse como la estimación de la media poblacional 
de la variable zy que para el k-ésimo elemento de la población está definida como 


Zyk = 
il O en otro caso 
Resultado 8.3.1. La función de distribución poblacional puede escribirse como 
una función de totales, específicamente como un promedio poblacional y está dada 


por 
de 


Resultado 8.3.2. Un estimador de la mediana poblacional M está dado por M 


M=+F-*(0.5), (8.3.6) 


donde F—1 es la función inversa de F(y) dada por 


A a T 
Fe) = = 8.3.7 
(o) == (8.3.7) 
=1 
Zyk 1 
= 0 — 8.3.8 
E i 


Esta forma de estimación de la mediana arroja los mismos resultados que la es- 
timación de una mediana ponderadd|!] por los factores de expansión dados por 
1/rx k € S. Con este razonamiento concluimos que para los diseños de muestreo 
que inducen probabilidades de inclusión iguales para cada elemento de la pobla- 
ción la estimación de la mediana corresponderá a la mediana de los valores de la 
característica de interés en la muestra. 


Por tanto, si los valores de la característica de interés en la muestra realizada son 
[1,2,3) y cada elemento del anterior conjunto está ponderado por su respecti- 
vo factor de expansión dado por (4,1,1), entonces la mediana estimada coinci- 
de con la mediana ponderadd|] que es igual a la mediana del siguiente conjunto 
(1,1,1,1, 2 , 3 ), es decir la mediana es uno. 

A 


Ejemplo 8.3.1. Para la población de ejemplo U la mediana poblacional es 35 
como lo muestra la siguiente salida. 


4Draper (1998) afirma que para calcular una mediana ponderada se deben ordenar las ob- 
servaciones de la menor a la mayor llevando sus pesos a lo largo del ordenamiento. Después es 
necesario encontrar la suma * total de los pesos y añadirlos desde arriba hasta abajo hasta que 
se encuentre 2/2. 

5Este procedimiento alternativo es computacionalmente mucho más sencillo. 
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> y <- c(32,34,46,89,35) 
> median(y) 
[1] 35 


Si el vector de probabilidades de inclusión, inducido por un diseño p(-) de tamaño 
de muestra fijo e igual n = 4, y los factores de expansión están dados por 


> pik <- c(1,0.5,1,1,0.5) 
> fk <- 1/pixk 

> fk 

(13) 12112 


Una posible muestra perteneciente al soporte Q de este diseño de muestreo es 
s¡=[ Yves, Ken, Erik, Sharon) 


Por tanto la estimación de la mediana para los datos de esta muestra particular 
será 34 puesto que 


> w <- c(32,34,34,46,89) 
> median(w) 
[1] 34 


¿Cuántas posible muestras tienen probabilidad no nula? Especifique el soporte Q 
y mediante un cálculo léxico-gráfico concluya acerca del sesgo y de la consistencia 
del estimador M. 


8.3.1 Marco y Lucy 


El gobierno, en su intención de realizar un acercamiento al comportamiento central 
de las características de interés planeó la investigación de la sección 4.2.4. en donde 
se planeó un diseño de muestreo con probabilidad proporcional de selección PPT 
con un tamaño de muestra m = 400. En esta ocasión se usó el conocimiento de 
la característica de interés Income para crear las probabilidades de selección de 
los elementos. Los resultados de la estimación de los totales son verdaderamente 
cercanos al parámetro de interés por la gran correlación de las probabilidades con 
las características de interés. 


Sin embargo, los investigadores asociados con este proyecto descubren que el com- 
portamiento estructural de la información auxiliar continua Ingreso está influen- 
ciado por puntos extremos como se puede ver en la siguiente figura. Por otra parte, 
se sabe que la correlación entre las características de interés y la información au- 
xiliar es grande, y se supone que el comportamiento estructural de éstas también 
debe ser muy disperso. Por tanto como medida de centralidad se ha tomado la 
decisión de trabajar con la mediana porque es una medida robusta. 


Una vez que se ha tomado la muestra, siguiendo los pasos de la sección 4.2.4. y con 
la ayuda de las funciones S.PPS y E.PPS se utiliza la función E.Quantile del pa- 
quete TeachingSampling para estimar la mediana con la información recolectada 
en la muestra. 
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Boxplot de Ingreso 
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Figura 8.2: Dispersión de la información auxiliar continua: Ingreso. 


data (Lucy) 

attach (Lucy) 

m <- 400 

sam <- S.PPS(m,Income) 
pk <- Income/sum(Income) 
muestra <- Lucy[sam,] 


VvVvVovv oy 


La naturaleza de este ejercicio es muy interesante porque se trata de un diseño con 
reemplazo. Una vez que la muestra es seleccionada es necesario extraer el vector 
de probabilidades de selección para las empresas seleccionadas en la muestra. La 
función E.Quantile consta de tres parámetros, y que, como de costumbre, es el 
conjunto de datos conteniendo la información recolectada en la muestra para la(s) 
característica(s) de interés, per que es el percentil de interés y toma valores de O 
a 1, en este caso el valor de interés es 0.5 y corresponde a la mediana y por último 
pik que son las probabilidades de inclusión de cada elemento seleccionado en la 
muestra] Si este argumento se deja vacío, el resultado de la función será el cálculo 
del percentil correspondiente para los valores de y tratando la muestra como si 
fuera una población. 


pk.s <- pk[sam] 

pik <- 1-(1-pk.s)”400 

attach(muestra) 

estima <- data.frame(Income, Employees, Taxes) 
E.Quantile(estima,0.5,pik) 

[11 420 73 12 


VVvovoy 


El resultado de la función arroja las siguientes estimaciones: 


e Para la información auxiliar ingreso en el último año fiscal, la mediana esti- 
mada es 420 millones de dólares. 


SEn este caso de muestreo PPT utilizamos la expresión (2.2.19) para el cálculo de los j a 
partir de los pz. 


8.4. Estimación de coeficientes de regresión 275 


e Para la característica de interés número de empleados, la mediana estimada 
corresponde a 73. 


e Para la característica de interés impuestos declarados en el último año fiscal, 
la mediana estimada corresponde a 12 millones de dólares. 


Si esta muestra se hubiese analizado sin tener en cuenta el diseño de muestreo, las 
estimaciones serían totalmente diferentes y por lo tanto erradas. 


8.4 Estimación de coeficientes de regresión 


Hemos llegado a la sección más importante y a la que le da el nombre a esta 
parte: inferencia asistida por modelos poblacionales. Una vez que hallamos dado 
los fundamentos teóricos y filosóficos que inspiran un modelo en una población 
finita, podemos acceder a la mejora de todo tipo de estimadores para la mayoría 
de parámetros de interés. Es fundamental que el lector, revise una y otra vez la 
información contenida en esta sección hasta lograr una completa comprensión y 
apasionamiento por el tema. Una vez que el lector comprenda en su totalidad el 
espíritu de esta sección estará en capacidad, no sólo de ahondar en temas más 
complejos e interesantes del muestreo y la inferencia en oblaciones finitas, sino 
de empezar una rigurosa labor investigativa para crear, construir o mejorar los 
estimadores propuestos en la literatura clásica. 


En la inferencia de poblaciones finitas basada en el diseño de muestreo, se hace 
hincapié en que las propiedades estadísticas de la estrategia utilizada para la esti- 
mación de los parámetros de interés debe estar supeditada al diseño de muestreo 
que ha usado. Es así como en los capítulos anteriores la esperanza y el cálculo de 
la varianza y la estimación de la varianza se ha hecho suponiendo un diseño de 
muestreo p(-) teniendo en cuenta que los valores y, Ya ..., yw que puede tomar la 
característica de interés son considerados como pseudo-parámetros que son fijos y 
no son susceptibles de cambio alguno. 


Cuando se tiene conocimiento de información auxiliar de tipo continuo o categóri- 
co en el marco de muestreo, decimos que para cada elemento en la población existe 
un vector de información auxiliar que toma el valor xx para la k-ésima unidad. Si 
este vector contiene p características auxiliares entonces toma la siguiente forma: 
Xx = (L1%, L2j, ds O 

Sin embargo, cuando se ha propuesto determinar la relación existente entre la ca- 
racterística de interés y la información auxiliar continua o categórica contenida en 
el marco de muestreo, es necesario acudir a un modelo probabilístico que requiere 
otro tipo de supuestos, que si bien hay que tratar con mucho cuidado, no van en 
contravía con la teoría propuesta hasta el momento. 


8.4.1 Fundamentos teóricos 


Suponga que existen N variables aleatorias Y, Ya,..., Yy por un lado y, que existe 
un vector de variables aleatorias X¡,X>,..., Xy y que la relación entre estas 
variables aleatorias está dada por un modelo de probabilidad gd] de tal forma que 


TA este modelo se le conoce con el nombre de modelo se super-población entre Y y X. 
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Y, =X 18 +€x (8.4.1) 


Donde cada un de los e; k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza] c0?. Al vector 3 se le cono- 
ce como vector de coeficientes de regresión en el modelo de super-población o 
super-parámetro de regresión. Bajo las variables e; se tienen las siguientes 
propiedades. 


Resultado 8.4.1. La esperanza y varianza de las variables aleatorias Y¡ están 
dadas por 


E¿(Y,) = X1,8 

$ (8.4.2) 
Var¿(Y,) = cpo”. 

Prueba. Las propiedades estadísticas conciernen con el modelo € propuesto y con 

ex suponiendo que la información auxiliar es fija. De esta forma 


Es(Y4) = Es (X18 +€1) 
= X1.8 + E¿(er) 
= Xp,8. 


Por otro lado, se tiene que 


Var (Y) = Varg (X,.8 + Ek) 
= Varg (€x,) 
= Ck a? . 
Nótese que el sub-índice € denota que la inferencia se realiza bajo la función de 
distribución inducida por el modelo. nl 


Bajo este modelo de super-población los valores y, Y2,...,Yw para la característi- 
ca de interés se consideran realizaciones de las variables aleatorias Y, Y2,..., Yw, 
lo mismo sucede con los valores del vector X1,xX2,..., Xy que se consideran reali- 
zaciones de los vectores aleatorios X1,X,..., Xy. El modelo € dado por (8.4.1) 
y por (8.4.2) es muy general y permite toda clase de acepciones. Pero antes de 
adentrarnos en cada posible modelo de interés es necesario ahondar un poco más 
dentro de los fundamentos filosóficos del mismo. 


Bajo el modelo £ se supone una relación entre variables aleatorias dada por el vector 
de coeficientes de regresión 3 y por las variables aleatorias £,. Cassel, Sárndal 
Wretman (1976a) afirman que a € se le conoce como modelo de super-población 
porque supone que la población finita U se toma como si hubiese sido seleccionada 
de un universo aún más grande al que pertenecen todo tipo de valores para Y y 
para Xy. Dado que es imposible para el hombre calcular el valor de $4 porque, de 
alguna manera, no está condicionado para conocer el estado de la naturaleza del 
modelo en cuestión, (8 debe ser estimado usando los datos de la población finita 
Y, Y,...,Ywv y X1,X2,..., Xy mediante la realización de un censo. 


SLas propiedades estadísticas de estas variables aleatorias deben ser consideradas bajo el 
modelo É. 
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8.4.2 Estimación en la población finita 


Cuando se tiene acceso a la información recolectada en el censo; es decir, se tiene el 
conocimiento de las realizaciones dadas por Yx y Xx (k € U), una forma de estimar, 
aunque no la única, el super-parámetro de regresión 8 es utilizar el método de los 
mínimos cuadrados, el cual arrojará como resultado un estimado B. 


Dentro del rango de posibles valores que el estimador B pueda tomar, el método 
de mínimos cuadrados asigna a B el valor que minimiza la siguiente función: 


DEN, yn — X4B : (8.4.3) 
= á 2no? A A 


Una vez más, nótese que ni yz ni xz son variables aleatorias, sino que deben ser tra- 
tadas como una realización de variables aleatorias. De esta manera se supone que la 
relación induce un vector de coeficientes de regresión estimados en la población fi- 
nita U que pueden ser obtenidos al ajustar el hiperplano y, = Bit1;+...+ BpTpk 
para los N elementos en la población entera. El siguiente resultado muestra la 
forma del estimador de mínimos cuadrados. Para la mejor comprensión de los re- 
sultado expuestos en esta sección se escribirán algunas expresiones en lenguaje 
matricial, así el lector estará familiarizado rápidamente con los modelos lineales. 


Resultado 8.4.2. Usando el método de mínimos cuadrados, el estimador de 8 en 
la población finita U está dado por 


B=(B,,...,Bp) = (x271x") * (a2 ly) (8.4.4) 
1] 
XX; XL Uk 
= 8.4.5 
ES yo 
-1 
XpXj XL Uk 
= 8.4.6 
NE qa 
Donde 
211 Le T1N Yi 
Tp +++ TpN YN 


y * es una matriz diagonal de tamaño N x N dada por 
cat... 0 
S = : $e . : (8.4.8) 


0 Lo. CNO? 


Prueba. La expresión que se quiere minimizar es (8.4.3) y corresponde a la suma 
de cuadrados de los errores E = y — x"B ponderada por co? y se puede reescribir 
de la siguiente forma 


D=EY "E 
= (y -xB/XY (y -xB) 
= yy -2B'xYN ly+B'x»!x'B 
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Diferenciando con respecto a B e igualando a cero 


OD 
BT 257 94 203 xB=0 
encontramos la demostración del resultado. A 


Aunque no es el único método, la técnica de mínimos cuadrados sobresale por sus 
características de estimación, seguramente el lector deberá estar familiarizado con 
los métodos de regresión aunque para el lector neófito se sugiere el seguimiento de 
Ravishanker €: Dey (2002) para una buena comprensión de la teoría de modelos 
lineales. Existen otro tipo de enfoques para la estimación de B, como por ejemplo 
las técnicas de regresión local polinomial (Breidt 4 Opsomer 2000) o las técnicas 
robustas no paramétricas (Gutiérrez 2009b, Gutiérrez € Breidt 2009). Es funda- 
mental que el lector note que en la fundamentación teórica nunca se hizo supuesto 
alguno acerca de la función de distribución de las variables aleatorias £; y por 
lo tanto la inferencia sigue estando libre de asunciones acerca de distribuciones 
teóricas. 


8.4.3 Estimación en la muestra 


Por supuesto, en la práctica no tenemos acceso a todos los valores de las carac- 
terística de interés, incluso en muchas ocasiones no tenemos acceso a todos los 
valores de la información auxiliar para cada elemento en la población finita. Así 
que es necesario estimar el coeficiente de regresión. Para este fin y siguiendo con los 
lineamentos de la sección introductoria se expresa B como una función de totales. 
En efecto, tenemos que: 


B=T"*t (8.4.9) 
donde 
T= y me (8.4.10) 
y 


(= y (8.4.11) 


Ck 


Resultado 8.4.3. Usando los principios de estimación de una función de totales, 
cuando el método de mínimos cuadrados es usado, B es estimado por 


B=T*t (8.4.12) 


donde 


/ 
T=y tt (8.4.13) 
S TkCk 
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¿= y) +% (8.4.14) 


Nótese que T y t son estimadores insesgados para T y t respectivamente. Sin 
embargo, B no es insesgado para B. 


Aunque el estimador de B es sesgado, se debe encontrar una expresión para la 
varianza. Sárndal, Swensson 4 Wretman (1992) muestran que cuando se usa el 
método de linealización de Taylor, la aproximación de la varianza del estimador 
(8.4.12) está dada por 


AV(B) = (E mé) v (E == (8.4.15) 


U U 


donde V es una matriz simétrica de tamaño p X p cuyas entradas son 


Liá E 251 É, 
Vij = Y Y Ay (ue :) (2 ) (8.4.16) 
U 


Ey = Y, — X,.B. El estimador de la aproximación de la varianza es 
Y Ex = Yk k p 


=-1 =-1 
— oa XX) A XX) 
Var(B) = (E 2%) v (E se) : (8.4.17) 


donde V es una matriz simétrica de tamaño p X p cuyas entradas son 


A Ari (Tiker Y [ Tgiel 
0%=2,2 ( > Y a ) (8.4.18) 


Tkl 


y € = yr —x,,B. Note que ¿,j=1,...,p. 


8.4.4 Casos especiales 


El modelo lineal general, definido por las expresiones (8.4.1) y (8.4.2), incluye 
muchos casos especiales de potencial interés en la práctica para el usuario que 
desea verificar o estimar la relación existente entre la característica de interés y la 
información auxiliar. Nótese que este modelo general no tiene restricción alguna en 
cuanto a la naturaleza de la información auxiliar. Es decir, el vector de información 
auxiliar xz puede ser continuo o categórico. 


Existen tres conceptos de vital importancia que se relacionan con la interpretación 
y el ajuste de cualquier modelo en una población finita. Estos son: 


e Nivel del modelo: especifica la unidad muestral que se utiliza en la formu- 
lación del modelo. Se dice que un modelo se ajusta al nivel de los elementos 
cuando éste está formulado en términos de información auxiliar disponible 
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para todos los elementos de la población finita U. Un modelo puede ser for- 
mulado tanto a nivel de los elementos como a nivel de conglomerados. Para 
diseños en varias etapas es posible formular una gran cantidad de modelos a 
diferentes niveles. 


e Tipo de modelo: este concepto se refiere al ajuste del mejor modelo que 
logre explicar la relación entre la característica de interés y la información 
auxiliar. ¿cuántas variables debo incluir en el modelo? ¿qué estructura de 
varianza debo proponer? ¿debe tener intercepto el modelo? 


e Modelo de grupo: cuando se sabe que la población finita U' puede ser 
particionada en grupos poblacionales, es posible ajustar un modelo general 
que ajuste bien en la población finita. Sin embargo, cuando se sabe que 
esta partición afecta el comportamiento estructural de la característica de 
interés en cada grupo, es recomendable ajustar un modelo en cada grupo. 
Así si la población está compuesta por G grupos, se ajustarán G' modelos a 
cada grupo. Nótese que esta partición puede estar dada tanto a nivel de los 
elementos como al nivel de la población. 


Aunque el modelo lineal general aplica para muchos casos y es obligación del 
usuario estar en la capacidad de proponer el mejor modelo. Como el maestro 
Bengt Swensson afirmó en una entrevista concedida en 2005: 


[El modelo lineal general] afirma que existe una relación entre la in- 
formación auxiliar. Para mí, esos son sólo datos que no traen ninguna 
información por sí mismos. Sin embargo tienen el potencial de ha- 
cerlo. Si los datos son útiles en la estimación o no, dependerá de la 
manera en que x este relacionado con y. Si el conocimiento y experien- 
cia del estadístico (basados en la realización de anteriores encuestas, 
muestras piloto o en cualquier otra evidencia) le dicen que efectiva- 
mente x tiene una fuerte relación con y, entonces el modelo comienza 
a tener sentido. Entre más conocimiento se tenga, se ajustará un mejor 
modelo. 


Con respecto al tipo de modelo es común que en la literatura clásica encontremos 
los siguientes: 


e Modelo de media común: este modelo supone que la característica de 
interés tiene la misma relación común para todo elemento en la población y 
que la estructura de varianza es constante. Así que p =1,xp =1 y ch =1 
para todo k € U. La formulación del modelo está dada por 


Y. =B+Ex (8.4.19) 


Donde cada un de los e; k € U son variables aleatorias independientes e 


idénticamente distribuidas con media cero y varianza 0?. 


La figura 8.3 muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 


8.4. 
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12 


- 1 Uk e 
B = > z — = Y == 8.4.21 
y Tk 3 Tk Nr dd ) 


Luego, bajo este modelo el estimador alternativo del promedio o promedio 
muestral ponderado es un caso particular del coeficiente de regresión. 


e Modelo de razón: este modelo supone que la existencia de una sola va- 
riable de información auxiliar continua relacionada con la característica de 
interés y que la estructura de varianza es inversamente proporcional al com- 
portamiento estructural de la información auxiliar. Así que p = 1, Xx = Tk 
y Ck = tg para todo k € U. La formulación del modelo está dada por 


Y, =X1B+Ex (8.4.22) 


Donde cada uno de los e, k € U son variables aleatorias independientes e 
idénticamente distribuidas con media cero y varianza 207”. 
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Figura 8.4: Gráfico de dispersión de un modelo de razón. 


La figura 8.4. muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 


Es(Yx) = 248 


8.4.23 
Var¿(Y4) = zzo”. ) 


El estimador del coeficiente de regresión basado en la muestra está dado por 


-1 


B= yt ELO o (8.4.24) 
sg "* s "e 


Luego, bajo este modelo el estimador de una razón entre dos características 
de interés resulta ser un caso particular del coeficiente de regresión. 


Modelo de regresión simple sin intercepto: este modelo supone que la 
existencia de una sola variable de información auxiliar continua relacionada 
con la característica de interés. Además, supone que la relación debe pasar 
por el origen del plano cartesiano y que la estructura de varianza es constante. 
Así que p= 1, Xx = Tk y Cx =1 para todo k € U. La formulación del modelo 
está dada por 

Ye = Xp B +Ex (8.4.25) 
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Figura 8.5: Gráfico de dispersión de un modelo de regresión sin intercepto. 


Donde cada uno de los £; k € U son variables aleatorias independientes e 


idénticamente distribuidas con media cero y varianza 0?. 


La figura 8.5. muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 


(8.4.26) 


El estimador del coeficiente de regresión basado en la muestra está dado por 


-1 


B=|Y zÉ y 7 | - bey (8.4.27) 


T Tk 
sg “k 3 08 


Es importante resaltar que, al igual que el modelo de razón, éste supone que 
cuando la característica de interés toma el valor cero, también lo hace la 
variable de información auxiliar continua. 


e Modelo de regresión simple con intercepto: este modelo supone que 
la existencia de dos variables de información auxiliar continuas relacionadas 
con la característica de interés. Una variable corresponde al vector de unos y 
la otra corresponde a la información auxiliar continua. Con la inclusión del 
vector de unos, se supone que la relación no pasa a través del origen. Este 
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modelo asume que la estructura de varianza es constante. Así que p = 2, 
Xx = (l,1x) y cx = 1 para todo k € U. La formulación del modelo está 
dada por 


Y. =X,B+E€z 

lib (8.4.28) 
Ye = Bo + PB1Xk + Ex 

Donde cada uno de los e, k € U, son variables aleatorias independientes e 

idénticamente distribuidas con media cero y varianza 0?. Para este modelo 


16% = (Bo, B1). 
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Figura 8.6: Gráfico de dispersión de un modelo de regresión con intercepto. 


La figura 8.6. muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 


Es(Yx) =X18 = Bo + B12x 


8.4.29 
Varg(Y;,) =0?. ( ) 


El estimador del coeficiente de regresión basado en la muestra está dado por 


B=(% 8.4.30 
(7) ($4.30) 
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En donde 
E 7 (es (ys) 
b, = El a (8.4.31) 
28 Tk 
y 
do = Ys — b1Ts (8.4.32) 


e Modelo de media post-estratificada: este modelo supone la partición 
en G grupos de la población finita. Así que U = (U¡,Uxz,...,Ug). Se asume 
que la característica de interés está relacionada con G vectores o variables 
dummy que toman el valor uno si el elemento pertenece al subgrupo U, 


g =1,...,G o cero si el elemento no pertenece al grupo. Así que p = G, 
Xp = dx =(0,0,...,1,...,0,0) y cz = 1 para todo k € U. La formulación 
nr pm 
G grupos 


del modelo está dada por 
Ye = 1/8 + €x = Bg + Ex g=1,...,G. (8.4.33) 


Donde [B = (B1,...,Bg,---, Ba) y cada uno de los e, k € U son variables 
aleatorias independientes e idénticamente distribuidas con media cero y va- 
rianza 07. Nótese que dy = (d14,...,dy,--., dar) con 


l, sikeU, 


dek:= 8.4.34 
di le en otro caso. ( ) 


Grupo 1 Grupo 2 Grupo 3 


Figura 8.7: Gráfico de dispersión de un modelo de media post-estratificada. 


La figura 8.7. muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 
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Es(Ye) = di8 = By + 


Var¿(Y;) = oe 


(8.4.35) 


El estimador del coeficiente de regresión basado en la muestra está dado por 


B=(B1,Bo,..., Bay (8.4.36) 
En donde 
—L a 
2 1 Yk tyU, 7 es 
B = E paid = -——=— Ed = 8.4.37 
y 2. Tk 2. Tk Nue de ( ) 


e Modelo de razón post-estratificada: este modelo supone la partición en 
G grupos de la población finita. De tal manera que U = (U,,Uz,...,Ug). 
Se asume que es posible definir un modelo de razón en cada uno de los 
subgrupos U, g = 1,...,G. Así que se considera que la razón entre la ca- 
racterística de interés y la información auxiliar es constante dentro de cada 
subgrupo pero distinta entre cada subgrupo. Luego, p = G, Xx = dxtx = 


(0,0,...,Tk,...,0,0) y cz = 27 para todo k € U,. La formulación del mo- 
Due 
G grupos 


delo está dada por 


Ye = PygXr +Ek ==. 6: (8.4.38) 
Donde cada un de los e, k € U, son variables aleatorias independientes e 


idénticamente distribuidas con media cero y varianza Ta para g=1,...,G. 


La figura 8.8. muestra el comportamiento de la relación entre la informa- 
ción auxiliar y la característica de interés. Este modelo tiene las siguientes 
propiedades: 


Es(Yx) = ByTr 


A (8.4.39) 
Var¿(Y;) = 1:07. 


El estimador del coeficiente de regresión basado en la muestra está dado por 


B=(B,,B,...,Ba) (8.4.40) 
En donde 
ol Ñ 
a Tk Uk yU,,T 
Bs eN Caco Mpal 8.4.41 


Existen más modelos pero los anteriores son los más utilizados en al práctica. La 
demostración de las anteriores expresiones se deja como ejercicio para el lector. 
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Grupo 1 Grupo 2 Grupo 3 


100 


yl 


Figura 8.8: Gráfico de dispersión de un modelo de razón post-estratificada. 


Ejemplo 8.4.1. Retomando nuestra población ejemplo U, suponga que tenemos 
acceso a los valores de la característica de interés y y de la información auxiliar 
continua x. Además de esto, se sabe que el modelo que rige la relación entre estas 
dos está dado por 


Y = Bo + B1X4 + Ex 


Donde cada uno de los e, k € U son variables aleatorias independientes e idéntica- 
mente distribuidas con media cero y varianza constante. Al estimar Pp y 81 usando 
el método de los mínimos cuadrados obtenemos la formulación del modelo en la 
población finita. Para esto usamos la función 1m del ambiente computacional de 
R. 


> x <- c(32, 34, 46, 89, 35) 
> y < c(52, 60, 75, 100, 50) 


> Im(y7x) 
(Intercept) x 
28.505 0.824 


Lo cual nos lleva a concluir que, en el caso hipotético de tener acceso a todos los 
datos de la población finita, el modelo estimado sería 


Yk = 28.505 + 0.8247; + Ex 
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Por supuesto, en la práctica no tenemos acceso a la población finita; por tanto, 
mediante un diseño de muestreo seleccionamos una muestra de tamaño n = 4. El 
diseño de muestreo induce probabilidades de inclusión pik para cada uno de los 
elementos. Suponga que la muestra seleccionada son los primeros cuatro elementos 
de la población; es decir, Yves, Ken, Erik y por último Sharon. Por tanto la 
información que se ha recolectado después del proceso de medición está guardada 
en los vectores x.s y y.s, asimismo lo están las probabilidades de inclusión de los 
elementos incluidos en la muestra dentro de pik.s. 


pix <- c(1,0.5,1,1,0.5) 
sam <- c(1,2,3,4) 

x.s <- x[sam] 

y.s <- y[sam] 

pik.s <- pik[sam] 


VWVvyvoy 


Para realizar la estimación de los coeficientes de regresión, se utilizará la función 
E.Beta del paquete TeachingSampling que permite la estimación de los coefi- 
cientes de regresión bajo cualquier modelo que se proponga con la información 
recolectada en la muestra. La función E.Beta tiene cuatro parámetros los cuales 
son: y, que es el conjunto de datos conteniendo los valores de la(s) característi- 
ca(s) de interés en la muestra; x, que es la matriz de diseño o matriz conteniendo 
la información auxiliar continua o discreta. Este argumento puede ser un vector, 
en el caso de una sola variable de información auxiliar, o una matriz, en el caso 
de múltiple información auxiliar. pik, es el vector de probabilidades de inclusión 
en los elementos incluidos en la muestra. b0, que por defecto toma el valor FALSE 
indicando que el modelo fue propuesto sin intercepto. De otra forma, si el modelo 
propuesto contiene intercepto, b0 debe tomar el valor TRUE. El último argumento 
de la función es ck que hace alusión a la estructura de varianza del modelo, ck 
toma el valor 1 por defecto. Si la estructura de varianza es como el modelo de 
razón, entonces ck deberá ser el mismo vector que se introdujo en el argumento x 


> E.Beta(y.s,x.s,pik.s,b0=TRUE,ck=1) 
E,11 Xx 
33.3626289 0.7667526 


En este caso la estimación, con la información recolectada en la muestra, da como 
resultado que el intercepto es By = 33.36 y la pendiente de la recta de regresión 


es B¡ =0.77. La formulación del modelo, en el nivel muestral, estaría dado por: 


Y = 33.36 +0.77%x +€x 


Dado que la estimación de una razón y la media ponderada son casos particula- 
res de la estimación de los coeficientes de regresión, la función E.Beta permite 
fácilmente el cálculo de dichas estimaciones fijando los parámetros de la misma 
convenientemente. 
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8.4.5 Marco y Lucy 


Es de vital interés para los colaboradores del gobierno conocer la relación entre 
las características de interés porque con estas relaciones pueden formular modelos 
econométricos que permitirán ahondar aún más en el comportamiento del sector 
en el último año fiscal. Si la información poblacional estuviese disponible, y los 
investigadores estuvieran interesados en formular un modelo distinto para cada 
las características de interés: número de Empleados y declaración de Impuestos en 
el último año fiscal con respecto a los Ingresos obtenidos en el mismo. 


A continuación, presentamos el razonamiento que nos lleva a escoger el modelo 
de regresión indicado para cada variable. La información auxiliar continua es la 
característica Ingreso mientras que las características de interés que tienen relación 
con esta son Empleados e Impuestos. ¿Tiene sentido ajustar ambos modelos con 
un intercepto? Piense en el siguiente escenario extremo que se puede presentar... el 
caso de una empresa que tiene ingresos nulos durante el año pero que aun así sigue 
funcionando con ayuda del mismo gobierno o con inyección de capital de alguna 
otra empresa o simplemente con la reserva de capital que la empresa debe guardar. 
Por lo tanto, si los ingresos son nulos, esto no significa que la empresa tenga cero 
empleados, entonces es posible que el modelo que se deba ajustar deba tener un 
intercepto. Por otro lado, si los ingresos son nulos, la declaración de impuestos 
de la empresa también será nula. Es decir, el modelo que se ajustaría para esta 
característica de interés no debería contener el parámetro del intercepto. 


Entonces, utilizando el método de los mínimos cuadrados estaríamos en capacidad 
de formular los dos modelos para responder a los objetivos de los investigadores. 
Ajustamos la regresión utilizando la función 1m. La estructura de varianza para 
cada modelo se supone constante. 


> data(Lucy) 

> attach(Lucy) 

> yl <- as.matrix(Employees) 

> y2 <- as.matrix(Taxes) 

> x < as.matrix(Income) 

> Im(y17x) | > Im(y2"x-1) 

Coefficients: | Coefficients: 

(Intercept) x | x 
29.05839 0.07953 | 0.03648 


Así que los modelos ajustados en la población finita para las dos características 
de interés serían 


Empleados; = 29.06 + 0.079 x Ingresoz + Ex 


Impuestos; = 0.036 x Ingreso; + Ex, 


Por supuesto, los anteriores modelos serían ajustados a la población. En la práctica 
no tenemos acceso a todos los valores que toman las características de interés, 
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es por esto que debemos estimar los coeficientes de regresión. Para este fin, el 
lector deberá retroceder un poco a la sección 7.5. en donde se planeó un diseño 
de muestreo en dos etapas. La muestra de la primera etapa estaba compuesta por 
las Zonas B,C,D y E. Dentro de cada una de estas zonas geográficas se seleccionó 
una muestra como lo indica el siguiente código. 


> muestral <- c("B" "cr "p" "Em HH Muestra = "gr ¿on "p" "E" 
> data(Lucy) 
> attach(Lucy) 


> Lucy2 <- Lucy [which(Zone==muestral [1]),] 
> Lucy3 <- Lucy [which(Zone==muestral[2]),] 
> Lucy4 <- Lucy [which(Zone==muestral[3]),] 
> Lucyb <- Lucy [which(Zone==muestral[4]),] 
> N2 <- dimí(Marco2) [1]; n2 <- 75 

> N3 <- dimí(Marco3) [1]; n3 <- 245 

> N4 <- dimí(Marco4) [1]; n4 <- 50 

> N5 <- dimí(Marco5) [1]; n5 <- 40 


Al igual que en la sección 7.5. cuando se selecciona las sub-muestras y la infor- 
mación es recolectada, ésta entra al ambiente computacional de R mediante el 
conjunto de datos llamado muestra. Nótese que el número de filas de muestra co- 
rresponde al número de empresas encuestadas, es decir, 410. Es necesario tener a 
mano el vector de probabilidades de inclusión en la muestra cuya longitud también 
equivale a 410 y está definido por el objeto pik. 


> pik <- rep(c(n2/N2,n3/N3,n4/N4,n5/N5),c(n2,n3,n4,n5)) 
> muestra <- rbind(muestra2,muestra3,muestral,muestrab) 
> attach(muestra) 


Para realizar la estimación de los coeficientes de regresión, es necesario utilizar 
la función E.Beta del paquete muestreo. Para el modelo con intercepto de la 
característica Employees, se fijan los parámetros de la función de manera que se 
ajuste con los preceptos del modelo, note que b0 toma el valor TRUE y que, por 
la estructura de varianza, ck toma el valor 1. Por otro lado para el modelo sin 
intercepto de la característica Taxes, el valor de b0 debe ser FALSE y al igual que 
en el modelo anterior, ck sigue tomando el valor 1. 


> E.Beta(Employees,Income,pik,b0=TRUE,ck=1) 
[1,] 25.4329117 [2,] 0.0866556 


> E.Beta(Taxes,Income,pik,b0=FALSE,ck=1) 
[1,] 0.03739028 


Así, los modelos estimados en la población finita son 


Empleadosy = 25.43 + 0.087 x Ingresox + ex 


Impuestosy = 0.037 x Ingreso + ex 
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Esta estimación, a grandes rasgos, indica que, con ingresos nulos, las empresas 
tienen en promedio a 25 empleados, que cada 11.7 de aumento en ingreso se con- 
trata a un empleado y que en promedio, las empresas pagan una tasa impositiva 
de 3.7% al gobierno. 


Nótese que si el modelo hubiese sido de razón, entonces la función que se requeriría 
para la estimación del coeficiente de regresión, que coincide con la estimación de 
una razón sería: 


> E.Beta(Taxes,Income,pik,b0=FALSE,ck=Income) 


8.5 Ejercicios 


8.1 Realice el ejercicio lexicográfico del Ejemplo 8.3.1. Ilustre con este ejercicio si 
el estimador M es insesgado o no. 


8.2 Con los datos del ejercicio anterior, seleccione una muestra de tamaño n = 
4. Utilice el resultado 8.3.1 para obtener una estimación de la función de 
distribución y grafique sus hallazgos. 


8.3 Para estimar el total de la característica de interés y de una población de N = 
284 elementos, se utilizó un diseño de muestreo Poisson de tamaño de muestra 
esperado n(S) = 10. Las probabilidades de inclusión fueron proporcionales a 
una característica de información auxiliar x cuyo total poblacional es t, = 
8182. El algoritmo de selección arrojó una muestra de tamaño efectivo de 12 
elementos, para las cuales se obtuvo la información del ejercicio 4.5. Estime la 
mediana y las función de distribución para la característica de interés. 


8.4 Suponga que los datos del ejercicio anterior fueron obtenidos mediante un 
diseño de muestreo aleatorio simple. Estime la diferencia de totales ty — ty 
mediante ty = tyr — ton. Estime la varianza y calcule el coeficiente de 
variación estimado. 


8.5 Suponga que los datos del ejercicio anterior fueron obtenidos mediante un 
diseño de muestreo Bernoulli con 7 = 0.04. 


(a) Estime la razón de totales t, /t,, mediante B = ty n/tz.n. Estime la varian- 
za y calcule el coeficiente de variación estimado. 


(b) Estime el promedio de la característica de interés utilizando el estimador 
de Hájek. Estime la varianza y calcule el coeficiente de variación estimado. 


(c) Estime el promedio de la característica de información auxiliar utilizan- 
do el estimador de Hájek. Estime la varianza y calcule el coeficiente de 
variación estimado. 


8.6 Verifique la expresión de la matriz de varianzas AV(B) 


8.7 En una muestra de municipios, basada en un diseño de muestreo aleatorio 
simple, se seleccionaron n = 10 municipios de N = 49. En cada municipio se 
midieron las siguientes características: el número de habitantes en el municipio 
(HAB), el numero de automoviles en el municipio (VEH) y el número de 
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efectivos militares en el municipio (MIL). Además, se sabe que cada municipio 
se categoriza (CAT) en urbano (CAT=1) o rural (CAT=0). A continuación 
se muestra la información recolectada de los municipios en la muestra: 


(a) 


(e) 


HAB | VEH MIL | CAT 
2571 50 415 1 
2813 91) 462 1 
3002 61 513 dl 
3564 70 977 1 
3051 64 932 0 
2835 56 463 0 
3319 67 51 0 
2986 61 512 0 
2998 91) 471 0 
2717 56 462 0 


Estime el coeficiente de regresión de HAB contra VEH para un modelo 
de media común. Estime la varianza y calcule el coeficiente de variación. 
Interprete el coeficiente estimado. 


Estime el coeficiente de regresión de HAB contra VEH para un modelo 
de razón. Estime la varianza y calcule el coeficiente de variación. Interprete 
el coeficiente estimado. 


Estime los coeficientes de regresión de HAB contra MIL para un modelo 


de regresión simple con intercepto. Estime la matriz de varianzas y calcule 
los coeficientes de variación. Interprete los coeficiente estimados. 


Estime los coeficientes de regresión de HAB contra CAT para un modelo 
de media post-estratificada. Estime la matriz de varianzas y calcule los 
coeficientes de variación. Interprete los coeficiente estimados. 

Estime los coeficientes de regresión de HAB contra MIL para un modelo 
de razón post-estratificada mediante CAT. Estime la matriz de varianzas 
y calcule los coeficientes de variación. Interprete los coeficiente estimados. 


8.8 Sustente o refute las siguientes afirmaciones 


(a) 
(b) 


Una función lineal de estimadores insesgados es siempre insesgada para su 
contraparte poblacional. 


Se dice que un estimador es aproximadamente insesgado cuando es sesgado 
sólo para la parte lineal del desarrollo de Taylor. 


En la estimación de una razón poblacional B, se cumple para la variable 
linealizada E, = (Ur = Bz;) que » y Ex = 0 sin importar el diseño de 


muestreo utilizado en el planeamiento del estudio. 


: E y . 
El estimador B = 2% es sesgado para B = ¿2 sólo si 2 es continua. 


En diseños de muestreo de tamaño de muestra aleatorio, el estimador del 
promedio poblacional ys es insesgado y de menor varianza en comparación 
al estimador ys. 


El método de linealización de Taylor para aproximar la varianza de paráme- 
tros complejos y en muestras pequeñas conduce generalmente a la sobre- 
estimación de la varianza real. 
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(s) El estimador B = T-14 es siempre sesgado para B = T7*4 independien- 
temente de la calidad del ajuste. 


Capítulo 9 


Estimación con información 
auxiliar 


Si los datos son útiles en la estimación o no, dependerá de la manera 
en que x esté relacionado con y. Si el conocimiento y experiencia del 
estadístico le dicen que efectivamente x tiene una fuerte relación con y, 
entonces el modelo comienza a tener sentido. Entre más conocimiento se 
tenga, se ajustará un mejor modelo. 


Bengt Swensson (2005) 


Las nociones de la inferencia en poblaciones finitas fueron expresadas hace más 
de 60 años en muchos libros clásicos como Cochran, Hansen, Hurwitz y Madow, 
Deming, Muthy, Des Raj y otros. La teoría de muestreo era aplicada desde la 
perspectiva misma de la selección aleatorizada de posibles muestras en la población 
finita. Dependiendo de las circunstancias prácticas, la selección se hacía de distintas 
maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de 
conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como 
la actividad primaria y la estimación nunca fue considerada como una práctica 
separada sino como una consecuencia automática. Lo anterior se debía a que cada 
tipo de diseño de muestreo inducía un estimador cuyas propiedades estadísticas 
como el insesgamiento y la varianza eran establecidas de antemano con el diseño 
y así, la varianza era calculable y estimable. 


Así que, para la década de los sesenta, muchos creyeron que la investigación en 
el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta 
porque se deberían inventar nuevas formas de selección de muestras (tarea ardua 
y difícil), más allá de las que se cubrían en los libros clásicos del muestreo. Aunque 
el estimador de razón fue considerado en algún detalle por los textos de referencia, 
la inclusión de varias variables de información auxiliar no se vio como un tópico 
que prometiera rédito alguno para emprender el camino de la investigación en esa 
vía. En la década de los setenta, varios autores dieron un viraje en su perspectiva 
epistemológica de la inferencia en poblaciones finitas. Es así como Basú, Brewer, 
Godambe y Royall, entre otros, consideraron los modelos estadísticos (en sintonía 
con la estadística clásica Fisheriana) como los verdaderos fundamentos de la es- 


295 


296 9. Estimación con información auxiliar 


timación e inferencia en poblaciones finitas. Su trabajo se cimentó alrededor de 
la posibilidad de tener una inferencia que dependiera estrictamente del modelo 
propuesto y no tuviera nada que ver con el diseño de muestreo utilizado en la 
recolección de los datos. Como consecuencia, la atención se tornó alrededor de la 
estimación y se dejo de lado el muestreo por la relación existente o propuesta entre 
la característica de interés y las variables de información auxiliar. 


El camino que tomó la historia del muestreo fue, precisamente, la incorporación 
de las dos corrientes de pensamiento bajo una sola sombrilla. Así que, fue posible 
combinar la aleatorización clásica con un percepción más general de la relación de y 
con x. No hubo necesidad de sacrificar los principios basados en la aleatorización. 
Así nació la inferencia asistida por modelos pero basada en ala aleatorización 
(model assisted design-based inference por su original en inglés). Este nuevo tipo 
de inferencia se hizo muy atractiva porque la regresión y los modelos acompañan 
al estadístico desde sus primeros cursos y van tomando más fuerzas a medida 
que se avanza en el camino universitario. Así que, este pensamiento «asistido 
por modelos> es un matrimonio efectivo y tolerante que permite las ideas de la 
regresión junto con el paradigma de la aleatorización. 


Jan Wrettman (Kott, Sweensson, Sárndal £2 Wretman 2005) opina que el ajuste 
de un modelo se ha convertido en parte integral de la teoría clásica del muestreo, 
aunque los principios de la misma deben permanecer intocables porque las propie- 
dades de los estimadores son evaluadas con respecto al mecanismo de probabilidad 
que genera la muestra y no con respecto a cualquier modelo asumido. 


9.1 Introducción 


En los capítulos anteriores de este texto, el lector ha sido introducido en los di- 
ferentes diseños de muestreo que, dependiendo de la configuración de los valores 
de la característica de interés, mejoran la eficiencia de los estimadores de Horvitz- 
Thompson o Hansen-Hurwitz, según sea el caso. En algunas ocasiones, el uso 
correcto de la información auxiliar en la etapa de diseño hace que la eficiencia de 
los estimadores mejore dramáticamente. Por ejemplo, si la información auxiliar es 
de tipo categórico y está bien correlacionada con el comportamiento estructural de 
la característica de interés, es posible acudir a un diseño de muestreo estratificado. 
De otra forma, si la información auxiliar disponible en la población es de tipo 
continuo, podemos utilizar un diseño de muestreo PPT o PT para mejorar la 
precisión de las estimaciones. En cualquiera de los casos, es necesario: 


1. Conocer los valores de la información auxiliar, ya sea de tipo continua o 
categórica, para todos los elementos que conforman la población. 


2. Tener la certeza de que la característica de interés guarda una estrecha co- 
rrelación positiva con la información auxiliar. 


En este capítulo, el interés está centrado en mejorar la eficiencia de las estimaciones 
incorporando al estimador la información auxiliar, que puede ser de tipo categórico 
o continuo, fijando el diseño de muestreo utilizado. En otras palabras, se quiere 
hacer uso de la información auxiliar en la etapa de estimación. Para este fin es 
necesario: 
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1. Contar con la experticia del investigador que ha sabido discernir y esco- 
ger el mejor diseño de muestreo para la configuración de los valores de la 
característica de interés. 


2. Saber que la característica de interés está bien relacionada con la informa- 
ción auxiliar. Como se verá más adelante no es necesario el conocimiento 
estricto de los valores de la información auxiliar en todos los elementos de la 
población, aunque sí es necesario conocer estos valores para la muestra junto 
con el total poblacional de la información auxiliar en la poblacióx]'] 


Por supuesto, los nuevos estimadores, que incorporan información auxiliar, apun- 
tan a la mejora dramática en la eficiencia de las estrategias de estimación de totales 
poblacionales. Además de esta característica, existen muchas otras que tienen que 
ver con la consistencia y el insesgamiento. Sin embargo, una característica impor- 
tante de un estimador construido a partir de la información auxiliar está dada por 
la siguiente definición. 


Definición 9.1.1. Una estrategia de muestreo se dice representativa con res- 
pecto a la información auxiliar x, sí y sólo sí 


És(x) = tu. (9.1.1) 


Es decir, si el estimador aplicado a las variables auxiliares reproduce exactamente 
el total poblacional de las mismas. 


La idea detrás del principio de representatividad de la estrategia es que si se tiene 
el conocimiento de que la característica de interés guarda una estrecha relación 
lineal con la información auxiliar entonces podemos pensar en que la siguiente 
igualdad se cumple 


to 7 ty (9.1.2) 


y, una consecuencia inmediata de esta propiedad, bajo los anteriores supuestos es 
que 


is(y) = ty (9.1.3) 


Sin importar el diseño de muestreo utilizado para la selección de la muestra, si 
el total poblacional de las variables auxiliares, tz, es conocido, se puede utilizar 
esta información para construir un estimador aún más preciso. En este capítulo se 
consideran los estimadores lineales de la forma, 


is(y) =w0 +) Y, (9.1.4) 
keS 


En donde los pesos wj pueden depender del vector de información auxiliar. Es 
claro que no todos los estimadores lineales cumplen la ecuación de representativi- 
dad. Por ejemplo, el estimador de Horvitz-Thompson es insesgado pero no utiliza 


¡Esta información puede ser suministrada por alguna entidad oficial. 
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información auxiliar por tanto no cumple la ecuación de representatividad para 
la información auxiliar. Aunque de manera teórica no es difícil mostrar que, uti- 
lizando un diseño de muestreo de tamaño de muestra fijo, el estimador de den 
arroja una estrategia representativa sobre el vector de probabilidades de inclusión 
Tl)---,TN- 

Si A y son los estimadores de Horvitz-Thompson de y y x respectivamen- 
te, entonces es posible construir nuevos estimadores que, sin importar el diseño 
de muestreo, arrojen estrategias representativas sobre el vector de información 
auxiliar x. Bajo estas condiciones la precisión de la estimación queda asegurada 
mediante la aplicación del siguiente resultado. 


Resultado 9.1.1. Si el estimador ts(-) induce una estrategia representativa sobre 
el vector de información auxiliar x, tal que se satisface. Entonces ts(x) 
estimará el total t, con varianza nula. 


Prueba. Si (9.1.1) se cumple, entonces 
Var(ts(x)) = Var(tx) =0 (9.1.5) 


Nótese que el operador Var(-) se calcula sobre todas las posibles muestras del 
soporte Q inducido por el diseño de muestreo. Es decir, para todas las muestras 
pertenecientes a Q el estimador £s(x) reproducirá el total t,, ] 


Este resultado es muy importante porque si es cierto que la característica de interés 
está relacionada con la información auxiliar, entonces ts(y) tenderá a contar con 
una varianza muy pequeña. 


Ahora es tiempo de discutir sobre la incorporación de la información auxiliar al es- 
timador. ¿Cómo es posible introducir esta información en una expresión matemáti- 
ca que intenta estimar un parámetro? La respuesta es simple y clara: mediante un 
modelo de super-población £. 


9.2 Estimador general de regresión 


En esta sección se construye un estimador del total poblacional de la característica 
de interés t, que mejora dramáticamente en eficiencia al incorporar información 
auxiliar. La manera en que esta incorporación se realiza es mediante el supuesto 
de que las variables de información auxiliar están relacionadas con la característica 
de interés mediante un modelo £. Este modelo es un modelo lineal general y le da 
el nombre al estimador que se propone en este capítulo. Así que si existen N varia- 
bles aleatorias Y, Y2,..., Yyy y un vector de variables aleatorias X¡,X2,..., Xy 
y la relación entre estas variables aleatorias está dada por un modelo de super- 
población, de tal forma que: 


Y. =X 18 +€x (9.2.1) 


Donde cada uno de los e, k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza c,0?, tales que: 


Es(Yi) = X1,8 


9.2.2 
Var¿(Yp) = cro”. ) 


9.2. Estimador general de regresión 299 


Al considerar este modelo general es posible construir un estimador del total po- 
blacional que conciba esta relación. 


9.2.1 Construcción 


Sea U el conjunto de elementos en la población finita y S el conjunto de los 
elementos que conforman la muestra aleatoria. Sean yx, k € S y Xx, k € U, los 
valores de la característica de interés y y el vector de información auxiliar asociados 
al k-ésimo elemento de la población. Siendo Tx la probabilidad de inclusión de 
primer orden, se asume que los totales poblacionales de la información auxiliar 
tx = rey Xx Son conocidos. 


De manera general, se asume que existe una relación entre la variable de interés y 
la información auxiliar por el modelo de super-población £. Es decir, 


Yk = f(Lik, Tak) >, Tpr) + Ex (9.2.3) 


En particular, bajo € existe una relación de tipo lineal entre yx y Xx. Por tanto, 
en la población finita se tiene que 


Uk = x.B+Ex 
= Y" + Ex 


Entonces, el parámetro poblacional que se quiere estimar se puede escribir como 


ty = S (yr? + Y — yk") 9.2.4) 

U 

= y x,B + S yr — Yk”) 9.2.5) 
U U 

= Y x¿B+)D Ex 9.2.6) 
U U 

= y +) Es 9.2.7) 
U U 


Como el objetivo es estimar t, con los datos suministrados en la muestra. Entonces 
es necesario estimar dos cantidades. La primera es B que corresponde a un vec- 
tor de coeficientes de regresión y que puede ser estimado siguiendo los principios 
del capítulo anterior. La segunda cantidad corresponde al total tg que puede ser 
estimado utilizando los principios del estimador de Horvitz-Thompson. De esta 
manera, se tiene la construcción del estimador general de regresión. 


Definición 9.2.1. El estimador general de regresión está definido por la siguiente 
expresión 


a a y —X,B 
ty greg = y x,B + yx o E (9.2.8) 
U E 


Desarrollando la expresión del estimador general de regresión y factorizando con- 
venientemente, llegamos a que el estimador general de regresión se puede escribir 
como: 
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7 o Yr xy, B 
ty greg = y, x,B + > > y E (9.2.9) 
El A 
= tun + Y Biltoj — bajm) (9.2.10) 


Que matricialmente se deja escribir como: 


ty,greg => don E (tx > bx) B (9.2.11) 


Como el estimador de B se halló utilizando la técnica de mínimos cuadrados, 
entonces 


B=T (9.2.12) 
donde 
an XX; 
T= 9.2.13 
a (9.2.13) 
y 
5 Xx Yk 
i= 9.2.14 
2 mio Ji 


* Uk 2 == XLUk 
ue =» at a y He 2.1 
y ,greg - Tr ( ) - Cx Tk (9 5) 
= E o E 9.2.16 
(rr) (9.2.16) 
= Y me E (9.2.17) 
Tr 


Por lo tanto, se tienen distintas formas de escribir el mismo estimador; las últimas 
expresiones son particularmente útiles, pues los pesos gxs tienen la propiedad de 
inducir estrategias representativas sobre cualquier variable del vector auxiliar. Es 
decir, al aplicar los pesos, sobre la muestra, a una variable de la información 
auxiliar, el resultado será el total poblacional de dicha variable. 


2 x! 
bx,greg = do = ta (9.2.18) 
Ss 


2Nótese que B no es un estimador insesgado para B. 
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Volviendo atrás a la introducción de este capítulo, se puede concluir que el esti- 
mador de regresión general es un estimador de tipo lineal con wo =0 y wz = os 
De tal forma que 


tygreg = y WEY k (9.2.19) 
Ss 
Ñ 2 Do (9.2.20) 
con 
Us =1+ (tx — be TIE (9.2.21) 


A los pesos ww se les conoce con el nombre de pesos de calibración y son 
usados ampliamente en la construcción de estimadores asistidos en modelos de 
superpoblación. De esta manera, al usar los pesos calibrados el estimador asistido 
por modelos está dado por 


Epa =D VE (9.2.22) 
kes 


Nótese que una propiedad de los pesos de calibración es que el estimador de la 
información auxiliar reproduce exactamente los totales poblacionales de la misma. 
De esta forma, tenemos que 


bz,cal == y WÍTp = ta. (9.2.23) 
kes 


Resultado 9.2.1. Para cualquier diseño de muestreo, el estimador ty grey induce 
una estrategia representativa sobre el vector de variables auxiliares. Es decir 


o 


tx greg = tx (9.2.24) 


Prueba. Utilizando la forma matricial del estimador general de regresión dada 
por la expresión (9.2.11) se tiene que 


o A A 


tx greg UN ber E (t, a txr) B 


Sin embargo, B será los coeficiente de regresión, ajustados por mínimos cuadrados, 
entre la información auxiliar contra ella misma. Por lo tanto, se tratará de una 
matriz identidad. Esto es claro al desarrollarlo, por tanto 


-1 
pS a XpXí XpX) 
B=TE= z E | =1 


S 


Entonces, el estimador general de regresión del vector de totales de la información 
auxiliar será 
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Es importante resaltar que la conformación estructural de los pesos de calibración 
depende de 


1. El modelo de superpoblación y sus condicionamientos para la estimación de 
los parámetros de regresión. Es decir, la forma del modelo per se (con o sin 
intercepto y la cantidad de variables de información auxiliar) y la estructura 
de varianza (el valor que toma cz). 


2. El vector de probabilidades de inclusión en la muestra. 


3. La muestra realizada. Para cada posible muestra del soporte definido por el 
diseño de muestreo, existe una configuración distinta de pesos de calibración. 


Ejemplo 9.2.1. Retomando nuestra población ejemplo U, suponga que el modelo 
de super-población £ es tal que 


Y. = Po + B1X1 +€x 


Donde cada uno de los ex k € U son variables aleatorias independientes e idéntica- 
mente distribuidas con media cero y estructura de varianza constante. Los valores 
de la característica de interés y de la información auxiliar continua se muestran a 
continuación 


> x <- c(32, 34, 46, 89, 35) 
> y <- c(B2, 60, 75, 100, 50) 


Mediante un diseño de muestreo aleatorio simple se selecciona una muestra de 
tamaño n = 4. Por supuesto, este diseño de muestreo induce probabilidades de 
inclusión pik para cada uno de los elementos. 


> sam <- sample(5,4) 
> pik <- rep(4/5,5) 


Suponga que la muestra realizada está dada por los elementos 1, 2, 3 y 5 de la 
población, correspondientes a Yves, Ken, Erik, Leslie. Los valores de y, x, y de 
pik para cada uno de los elementos en la muestra están dados por 


> x.s <- x[sam] 
> y.s <- y[sam] 
> pik.s <- pik[sam] 
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Con la ayuda de la función Wk del paquete TeachingSampling es posible rea- 
lizar el cálculo de los pesos de calibración para los elementos seleccionados en 
la muestra. Esta función tiene cinco argumentos descritos a continuación: x, que 
es la matriz de información auxiliar conteniendo los valores para cada uno de 
los elementos de la muestra de la información auxiliar continua o discreta. Este 
argumento puede ser un vector, en el caso de una sola variable de información 
auxiliar, o una matriz, en el caso de múltiple información auxiliar. tx, que es 
el vector de totales poblacionales (que se suponen conocidos) de la información 
auxiliar. pik, es el vector de probabilidades de inclusión en los elementos incluidos 
en la muestra. b0, que por defecto toma el valor FALSE indicando que el modelo fue 
propuesto sin intercepto. De otra forma, si el modelo propuesto contiene intercepto, 
b0 debe tomar el valor TRUE. El último argumento de la función es ck que hace 
alusión a la estructura de varianza del modelo. ck toma el valor 1 por defecto. Si 
la estructura de varianza es como en el modelo de razón, entonces ck deberá ser 
el mismo vector que se introdujo en el argumento x. 


De esta manera, se utiliza la función Wk del paquete TeachingSampling para 
encontrar los pesos de calibración. Nótese que como el modelo fue propuesto con 
intercepto, eso quiere decir que la primera columna de la matriz de diseño es de 
sólo unos; por lo tanto, el argumento tx debe ser un vector conteniendo el total 
poblacional y el total de la variable de información auxiliar, así tx=c(5,236). 
Como la estructura de varianza es constante, ck toma el valor uno. 


> w <- Wk(x.s,tx=c(5,236),pik.s,ck=1,b0=TRUE) 
> Y 

[,1] [,2] [,3] [,4) 
[1,] 0.48 -0.84 5.32 0.04 


De esta manera se obtienen los pesos calibrado cuya agradable propiedad es que 
reproducen el total poblacional exacto de la información auxiliar. 


> sum(x.s*w) > sum(y.s*w) 
[1] 236 [11 391.72 


Sin embargo, si el modelo £ hubiese sido formulado de manera distinta, como por 
ejemplo: 


Y. = PLXx + Er 


Donde cada uno de los e, k € U son variables aleatorias independientes e idéntica- 
mente distribuidas con media cero y estructura de varianza constante. Entonces, 
los argumentos en la función Wk del paquete TeachingSampling deben cambiar, 
de tal forma que 


> w <- Wk(x.s,tx=236,pik.s,ck=1,b0=FALSE) 
> Y 

[,1] [,2] [,3] [,4] 
[1,] 1.581235 1.552844 1.685338 1.571771 


Nótese que aunque el modelo cambie, la propiedad de calibración se mantiene ante 
distintas configuraciones en los pesos. 
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> sum(x.s*w) > sum(y.s*w) 
[1] 236 [11 380.5163 


Para este modelo de super-población, haga un ejercicio léxico-gráfico de todas las 
posibles muestras aleatorias simples de tamaño n = 4, donde calcule los pesos 
de calibración y verifique la propiedad de representatividad sobre el vector de 
información auxiliar. 


9.2.2 Otras propiedades del estimador general de regresión 


Por otro lado, acudiendo a la definición del estimador general de regresión, éste 
toma la siguiente forma 


U Ss 
¿5% er 
M4, 


En algunas ocasiones, el modelo £ que establece la relación entre la característica 
de interés y la información auxiliar es tal que 


7 =0 


Si la anterior ecuación se satisface, entonces el estimador general de regresión 
tomaría una forma mucho más sencilla dada por 


tygreg = 2 Ur (9.2.25) 
U 

=> x,B (9.2.26) 
U 

=4B (9.2.27) 


Por lo que sólo se necesitaría del conocimiento del vector de totales poblacionales 
de las variables de información auxiliar tx, que pueden estar disponibles en alguna 
entidad administrativa, y de los valores que toman la característica de interés y el 
vector de información auxiliar, y; y Xx respectivamente, en la muestra realizada. 


Resultado 9.2.2. Una condición suficiente para que 
e 
2-0 
El Tk 


es que exista un vector v tal que 


V'Xp = Ch. (9.2.28) 
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Prueba. Si la ecuación (9.2.21) se satisface, entonces 


1 A 
> E ->5 — (ys —x1B) 
Tk Tk 
S Ss 
$ 1 v/x Z 
S Tk Ck 


S 
A V XxkUk 
= ty — > 
TkCk 
S 
= ty — yn =0 


Sárndal, Swensson $: Wretman (1992) afirman que algunos ejemplos de estructuras 
de varianza que satisfacen la ecuación (9.2.21) son: 


e Modelo de regresión lineal con intercepto 114 = 1 Vk € U y estructura de 
varianza constante ch = 1. 


e Modelo de regresión lineal con estructura de varianza proporcional a alguna 
variable del vector de información auxiliar. Es decir, 


0*cx XA Tik 
Para algún ¿=1,...,p y para todo k € U 


e Modelo de regresión lineal con estructura de varianza proporcional a una 
combinación lineal de las variables de información auxiliar. Es decir, 


Pp 

2 > : 

O” Cx Xx Aj ik 
j=1 


Para todo k € U y algunas constantes 47,..., dp 


Acerca de la filosofía que cubre el modelo £ en el estimador de regresión, Sárndal, 
Swensson éz Wretman (1992) afirman que el papel que juega este modelo se limita 
a la descripción, mas no explicación, de la nube de puntos en la población finita. 
Argumentan que se espera que el modelo propuesto ajuste razonablemente bien 
y que haga pensar que pudo haber generado el comportamiento particular de la 
característica de interés. Nótese que el supuesto es flexible y no exige la certeza 
de que el modelo en verdad haya generado los valores de y. Por tanto, aunque el 
modelo induce aleatoriedad per se, las conclusiones de las estimaciones son inde- 
pendientes del mismo. Aún más, el modelo £ es un vehículo para encontrar una 
expresión matemática que permita estimar los coeficientes de regresión y la eficien- 
cia de ita comparada con la del estimador de Horvitz-Thompson dependerá de 
la bondad del ajuste inducida por el modelo supuesto. Sin embargo, no depende de 
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ninguna manera, de si el modelo es cierto o no. Por tanto todo tipo de inferencias 
acerca del estimador están basados en el diseño de muestreo y no en el modelo 
supuesto. 

Bajo la anterior argumentación, es necesario calcular y estimar la varianza del 
estimador general de regresión desde un punto de vista basado en el diseño de 
muestreo. Así que, siguiendo los lineamentos de la sección 8.1.1. en cuanto a la 
técnica de linealización de Taylor, se tiene el siguiente resultado. 


Resultado 9.2.3. El estimador general de regresión es aproximadamente inses- 
gado para el total poblacional de la característica de interés t,. Además la apro- 
ximación de la varianza y la varianza estimada del estimador general de regresión 
están dadas por 


Ey E 
AVar(ty,greg) =D _ 2 An a o (9.2.29) 
e Axl €k €1 
Var(ty,greg) = y A (9.2.30) 


respectivamente. Donde Ex = yx — X),B son los errores en la población finita y 
Ck = Yk — x,, B son los errores en la muestra seleccionada. 


Prueba. Siguiendo los pasos de la linealización de Taylor, debemos expresar el 
estimador como una función de totales. 


by,greg = Íym + (tx — Ée)'B (9.2.31) 
Nótese que 
- y OB 
OT A . 5 Z == (tx _ ber) a =0 
tyn=ty txntx, T=T, f=t A 
y análogamente, se tiene que 
0 - OB 
looicacctamias 7 Al =e 
A tyn=ty Eer=tx T=T,é=t 


Por consiguiente, sólo se calcula las derivadas de f con respecto a tyr y txr, y Se 
tiene que 
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Of (tun, bxrr) 
qa1 = FA 
Otyn byn=ty Uen=tx T=T ¿=t 
=1 
Of (tun, bxrr) 
UI A 
Ot xr byn=ty Een=tx T=T =t 
=-B 
Lyrn=tytxn=tx, T=T,t=t 
= —pB' 


Por tanto, se tiene que 


ora S ty + (Eyr — ty) Br — tx), 


y tomando esperanza, se tiene que Eltusres) S ty. 


Al definir la nueva variable linealizada dada por la expresión (8.1.14), se tiene que 


Ex = Uk — x,B (9.2.33) 


cuya aproximación con los datos recolectados en la muestra es 


er =Yr —X,B (9.2.34) 


Por tanto, la varianza se escribe, recurriendo al resultado 8.1.3, como 


AVar(t,greg) = Var (E a) (9.2.35) 


T 
S k 


Utilizando los principios del estimador de Horvitz-Thompson se llega a los resul- 
tados de la aproximación de la varianza y de la varianza estimada. mn 


Sárndal, Swensson €: Wretman (1992) proponen un estimador de la varianza que 
integra los pesos gxs. La motivación de este nuevo estimador de la varianza recae 
en que una forma de escribir el estimador de regresión general está dada por 


: 5 Jks Ex 

ty,greg = y Yk + $ O (9.2.36) 

Tk 

U Ss 
Por lo tanto, al calcular su varianza tenemos 
: mí $ Ys Ex 
Var parda) = Var y Yo + y al (9.2.37) 
k 
U Ss 


E 
= Var P aut) (9.2.38) 
Tk 
S 
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Utilizando los principios del estimador de Horvitz-Thompson, un estimador alter- 
nativo para la varianza del estimador general de regresión está dada por 


E Axl 9ksCk 9isel 
Var(tygreg) = YY (9.2.39) 
Ss 


Tk Tk Tl 


El lector debe tener muy claro que la propiedad de insesgamiento no aplica a esta 
clase de estimadores. Sin embargo, cuando el tamaño de muestra y el tamaño 
poblacional son grandes, entonces el sesgo del estimador general de regresión es 
despreciable. Se debe tener sumo cuidado en las muestras de tamaño pequeño, 
máxime cuando se realiza el proceso de estimación por intervalos de confianza. 
Sárndal, Swensson € Wretman (1992) afirman al respecto que, aunque el sesgo 
afecta la validez de los intervalos de confianza generados con el estimador general 
de regresión, es válido utilizar el siguiente intervalo de confianza 


ty,greg — 21-a/2 Var(ty greg) (9.2.40) 


incluso cuando el tamaño de muestra es modesto. 


Resultado 9.2.4. Bajo la familia de diseños de muestreo MAS, el estimador ge- 
neral de regresión es consistente en el sentido Cochran. Es decir, si s = U, entonces 


ty greg = ly (9.2.41) 


Hasta este momento, hemos definido el estimador general de regresión como un 
intento de conciliar la teoría clásica de modelos con el muestreo de poblaciones 
finitas. Este estimador ha ganado mucho campo en las últimas décadas y su uso, 
dadas sus propiedades deseables, es aún mayor a medida que el tiempo pasa. Sin 
embargo, el estimador general de regresión es el resultado de décadas de desarrollo 
teórico y construcción de estimadores asistidos por modelos que se constituyen 
como casos particulares de éste. 


En las próximas secciones, estudiaremos cada uno de estos casos particulares más 
utilizados en la práctica. El lector debe notar que cada uno de los estimadores que 
siguen en las siguientes secciones, fueron propuestos en los tiempos antiguos sin 
tener en cuenta un modelo de super-población sino con una motivación puramente 
empírica. Sin embargo, como se verá en desarrollo de las siguientes secciones, 
todos estos estimadores están cubiertos bajo los principios del estimador general 
de regresión y por los coeficientes de regresión que el modelo induzca. 


Para terminar la exposición del estimador general de regresión, el lector debe notar 
que este estimador es completamente inútil en la práctica. En otras palabras, su 
basta generalidad hace que este estimador sea inutilizable. Como en todo proce- 
so estadístico, el modelo general y sus correspondientes expresiones matemáticas 
carecen de sentido sin el conocimiento del comportamiento particular de cada ca- 
racterística de interés. Con lo anterior, no es mi intención desactivar al lector. 
Por el contrario, cuando el estadístico logra entender qué es un modelo de super 
población, y obtiene un estimador particular conforme al comportamiento de la 
población de estudio, entonces la ganancia en eficiencia es tremenda. 


En las siguientes secciones se darán ejemplos particulares del estimador de regre- 
sión cuando el modelo que rige la población finita ya se ha especificado. Nótese 
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que todos y cada uno de los estimadores que a continuación se presentan son casos 
particulares del estimador general de regresión. Por supuesto, cada uno de ellos 
recibe un nombre particular, que en la mayoría de los casos está supeditado al 
modelo que rige la población particular. 


El lector debe retomar en cada una de las siguientes páginas el espíritu del es- 
timador general de regresión como una familia que cobija casos particulares de 
estimadores. Todos y cada uno de los estimadores que se revisan en este capítulo 
nacieron bajo especificaciones propias que los caracterizaban de manera singular. 
Por tanto, el desarrollo histórico de cada uno de ellos no estuvo fundamentado, 
en principio, como un caso particular de algún otro estimador. El estimador de 
razón, el estimador de regresión, el estimador de post-estratificación, entre otros, 
fueron concebidos aparte de la idea de los modelos lineales. Sus creadores no esta- 
ban pensando en calcular o estimar un coeficiente de regresión. Por supuesto, con 
el transcurrir del tiempo y los avances en términos de la teoría estadística de los 
modelos lineales, se creó una familia que unifica a todos los estimadores de este 
capítulo en un sólo estimador general. 


9.3 Estimador de media común 


Recuerde que la construcción de la estrategia de muestreo es la tarea más im- 
portante antes de realizar cualquier estudio por muestreo. Sin embargo, se debe 
reconocer que cada una de las posibles estrategias de muestreo tiene ventajas y 
desventajas sobre las restantes estrategias. Suponga que el diseño de muestreo 
que se ha propuesto consiste en un diseño de muestreo Bernoulli. ¿Qué tipo de 
estimador es el mejor para este diseño de muestreo?. En teoría, existen muchos 
estimadores insesgados para este diseño particular, por ejemplo el estimador de 
Horvitz-Thompson. Sin embargo, desde un punto de vista práctico, es posible que 
la muestra realizada o seleccionada para este diseño de muestreo consista en todas 
y cada una de las unidades de la población. Bajo el anterior escenario el estima- 
dor de Horvitz-T'hompson no plantea ningún tipo de ventajas pues la estimación 
para el total poblacional será una estimación totalmente errónea, igual a t,/7 y 
estrictamente mayor a ty. 


Como se vio en capítulos anteriores, aunque la probabilidad de que la muestra 
seleccionada o realizada contenga todas las unidades poblacionales, el estimador 
alternativo del total poblacional, dado en la expresión (2.2.17), proporciona una 
mejor opción que el estimador de Horvitz-Thompson. Este estimador alternativo 
se conoce con el nombre de estimador de media común y está motivado por el 
modelo de media común que supone que la población se comporta de la misma 
manera de acuerdo a una pendiente común para cada uno de los individuos que 
conforman. De esta manera p = 1, xx = 1 y cx = 1 para todo k € U. La formulación 
del modelo de superpoblación está dada por 


Y. =B+Ex (9.3.1) 


Donde cada uno de los e; k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza 0?. Como resultado de lo anterior 
se tiene que 
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Es(Yr) =P (9.3.2) 


Var¿ (Y4) 2 


A simple vista el estimador resultante del modelo anterior no es mejor que el es- 
timador de Horvitz-Thompson pues la información auxiliar es siempre constante. 
Sin embargo, el estimador resultante es muchas veces mejor que el estimador de 
Horvitz-Thompson como cuando la estrategia de muestreo implica un diseño de 
muestreo tipo Bernoulli. Es común utilizar el estimador de media común cuando 
el gráfico de dispersión entre la característica de interés y la característica de in- 
formación auxiliar define una recta de regresión constante y paralela al eje de las 
abscisas. Por supuesto, el cociente entre estas dos características también definirá 
un gráfico de dispersión cuyo comportamiento sea constante con ligeras desviacio- 
nes uniformes como se puede observar en la siguiente figura. 


0 100 200 300 400 500 0 100 200 300 400 500 


Index Index 


Figura 9.1: Relación en un modelo de media común. 


Si se tuviese acceso a toda la población finita, el estimador del coeficiente de 
regresión P estaría dado por la minimización de la siguiente función de dispersión 


D= y EEN (9.3.3) 
U 


Utilizando el resultado 8.4.2 y recurriendo a la ecuación (8.4.6), el estimador B en 
la población finita toma la siguiente forma 

t 

B=2=y 9.3.4 

y =Yu (9.3.4) 
Por supuesto, como en la práctica sólo se tiene acceso a una muestra particular 
de población finita, B debe ser estimado de tal manera que siguiendo el resultado 
8.4.3. llegamos a la siguiente expresión 


B= Ae = ús (9.3.5) 
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Con estas herramientas es posible ahora construir un estimador del total pobla- 
cional de la característica de interés el cual está dado por el siguiente resultado. 


Resultado 9.3.1. Bajo el modelo de media común, el estimador del total pobla- 
cional está dado por 


; rar 
tume = N e = Nys (9.3.6) 
cuya varianza aproximada es 
A Ej E 
AVar(tyme) = Y AM, (9.3.7) 
U Tk TI 
con 
Ex =Yk — B (9.3.8) 
t 
= Y — NN = Yk — YU- (9.3.9) 


El estimador de la varianza es 


A 
Var(t (ty greg) ds E (9.3.10) 


TL Tk TI 
con 


er =Yy. — B (9.3.1) 
t 


= Y = 2% = Yx — Ys. (9.3.12) 


Prueba. Antes de empezar la demostración, el lector debe tener en cuenta que 
estimador es un caso particular del estimador general de regresión. Por lo tanto, 
como Xx = 1 para todo k € U, adecuando la expresión (9.2.11) se tiene que 


a —= by T Bt a tam) (9.3.13) 
E ' 

= tyn + 03 (N—Ñr) (9.3.14) 

=N=2 = Nys (9.3.15) 


T 


El cálculo de la varianza aproximada y la estimación de la varianza del estimador 
de razón son inmediatos al utilizar el resultado 9.2.3. mn 


El espíritu y la ventaja de este estimador está en la corrección que hace al esti- 
mador de Horvitz-Thompson mediante el cociente e De esta manera, cuando 
el estimador de Horvitz-Thompson está subestimando o sobreestimando el total 
poblacional, entonces este cociente corrige inmediatamente esta sub o sobre esti- 
mación. 

A continuación se presentan otras características importantes del estimador de 
media común para el total poblacional. En primer lugar, nótese que fácilmente se 
puede demostrar que 
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Ss 
Lo anterior se tiene puesto que, recurriendo al resultado 9.2.2, xx = Cx = 1 y por 


lo tanto v' = 1. Como consecuencia de lo anterior, es posible escribir al estimador 
de media común en una forma simplificada 


U U 
= Y js = Nis (9.3.17) 
U 
Además recurriendo a las expresiones (9.2.16) y (9.2.17) se tiene que 
si =1H => (9.3.18) 
N—Ña N 
=1+| —==]|=> (9.3.19) 
Nr Nr 


9.3.1 Algunos diseños de muestreo 
Diseño de muestreo Bernoulli 


Bajo el diseño de muestreo Bernoulli, el estimador de media común toma una forma 
idéntica al estimador alternativo propuesto en la expresión (3.1.14) de la sección 
3.1. En esos apartados, no se dieron las expresiones para la varianza y la varianza 
estimada puesto que se requería de herramientas de las que no se disponían. Sin 
embargo, el siguiente resultado da cuenta de las expresiones exactas para este 
estimador alternativo. 


Resultado 9.3.2. Si el diseño de muestreo es Bernoulli, el estimador de media 
común, su varianza aproximada y el estimador de la varianza están dados por 


A Ys Yk 


t me — Nys = N = Nys. 3.2 
Y ys niS) Ys (9.3.20) 
A 1 9 
AVBERtyme =N > =1 Sue (9.3.21) 
n o 1/1 2 
VarBErtyme = (M(S) - 1)2 | -=—1] Sy, (9.3.22) 
T T 


respectivamente. Con Ss la varianza poblacional de la característica de interés y 
Si . la varianza muestral de la característica de interés. 


Prueba. El resultado se sigue inmediatamente al evaluar la expresión (3.1.12) en 
cada una de las ecuaciones del resultado. n 
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Diseño de muestreo aleatorio simple 


Resultado 9.3.3. Si el diseño de muestreo es aleatorio simple, el estimador de 
media común toma la misma forma que el estimador de Horvitz-Thompson. Por 
supuesto, la varianza aproximada y el estimador de la varianza son los mismos que 
los del estimador de Horvitz-T'hompson. En general, se tiene que 


A ES N 
S 
2 N? n 
Varmasltyme) e e (1 => 5) SE (9.3.24) 
— A N? n 
Varmas[tyme) e E (1 7 y) Si, (9.3.25) 


respectivamente. Con Si, la varianza poblacional de los errores Ej = Yx — Yu y 
2: A AS . , EN y 
Sé, la varianza muestral de los errores e, = Yx — Ys- 


Prueba. El resultado se sigue inmediatamente al aplicar los principios del esti- 
mador de Horvitz-Thompson a las expresiones (9.3.7) y (9.3.10) bajo el diseño de 
muestreo aleatorio simple. Nótese que bajo el diseño de muestreo aleatorio simple, 
E=0 y £=0, por lo tanto Sz, =S2, y $2 =S2.. li] 


9.3.2 Marco y Lucy 


Retomando la población de empresas pertenecientes al sector industrial, suponga 
que se desea estimar el total de las características de interés mediante un estimador 
de regresión que obedezca al modelo dado por la expresión (9.3.2), en donde las 
características de interés están relacionadas con una variable que es constante y 
que supone el mismo comportamiento estructural a lo largo de toda la población. 
Suponga que se selecciona una muestra aleatoria simple de tamaño n = 400 


data(Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 

n <- 400 

sam <- S.SI(N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 


VWVWVvVOyvov voy 


Para computar el estimador del total de las características de interés se define 
la matriz de información auxiliar, que en este caso particular corresponde a un 
vector de unos y se utiliza la función GREG.SI del paquete TeachingSampling que 
cuenta con siete argumentos: N, el tamaño poblacional, n, el tamaño de la muestra, 
y, correspondiente al vector o matriz de datos que contienen las observaciones 
de los individuos incluidos en la muestra, x, concerniente al vector o matriz de 
información auxiliar en la muestra, tx, el total poblacional de las variables de 
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información auxiliar, b, el estimador de coeficientes de regresión y, por último, boO, 
que indica si el modelo está definido con o sin intercepto. 


Por consiguiente, definiendo correctamente los parámetros según el modelo dado 
por (9.3.2), tenemos el siguiente código computacional para el cálculo del estimador 
del total poblacional. 


> estima <- data.frame(Income, Employees, Taxes) 
> pik <- rep(n/N,n) 
> x <- rep(1,n) 
> tx <- c(N 
> b <- E.Betalestima,x,pik,ck=1,b0=FALSE) 
> GREG.SI(N,n,estima,x,tx, b, bO=FALSE) 
Income Employees Taxes 
Total estimado 1.013059e+06 1.502891e+05 2.759294e+04 
Varianza 8.305089e+08 1.268017e+07 3.360041e+06 


coeficiente de variación 2.844707e+00 2.369382e+00 6.643155e+00 


Por otra parte, el siguiente código muestra que la propiedad de calibración se 
mantiene para este modelo. Para esto, se planea la utilización de la función Wk del 
paquete TeachingSampling que cuenta con cinco argumentos: x, concerniente al 
vector o matriz de información auxiliar en la muestra, tx, el total poblacional de 
las variables de información auxiliar, pik, el vector de probabilidades de inclusión 
para los elementos de la muestra, ck, que hace alusión a la estructura de varianza 
del modelo y, por último b0 que se refiere al intercepto del modelo. Nótese que 
la multiplicación de los valores observados de cada una de las características de 
interés con los pesos de calibración da como resultado la misma estimación que al 
utilizar la función GREG.STI. 


> w <- Wk(x,tx,pik,ck=1,b0=FALSE) 
> sum(xx*w) 


[1] 2396 
> colSums(w*estima) 
Income Employees Taxes 


1.013059e+06 1.502891e+05 2.759294e+04 


A continuación se muestra la tabla de resultados que indica que asumiendo este 
modelo se gana mucha más precisión que en el caso en donde no se asume ningún 
modelo y se realizan las estimaciones directamente como en el caso del diseño 
de muestreo aleatorio simple. Nótese que para este caso particular, no se tuvo a 
la mano ninguna característica de información auxiliar sino que el modelo estuvo 
inducido por un simple vector de constantes que mejoro la estimación y la precisión. 


9.4 Estimador de razón 


El estimador de razón fue el primer intento de conciliar la información auxiliar en la 
etapa de estimación bajo un marco de inferencia basado en el diseño para mejorar la 
eficiencia del estimador del total poblacional y es atribuido a Hájek (1971) aunque 
siglos atrás Laplace (1814) lo utilizó para estimar el total de habitantes en Francia. 
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Tabla 9.1: Modelo de media común: estimación de los totales de las características 
de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1013059 2.84 -2.14 
Empleados 151950 150289 2.36 -1.09 
Impuestos 28654 27592 6.64 -3.70 


Suponga que existe una variable de información auxiliar continua x, entonces para 
poder utilizar un estimador de razón es necesario contar con los valores de la 
información auxiliar en la muestra 14 k € S y con el total poblacional de la 
misma, t,. Esta última información puede ser obtenida de fuentes administrativas 
o incluso estadísticas oficiales manejadas por los institutos de estadística. 


El modelo existente detrás de la construcción de este estimador está dado por el 
modelo de razón que supone la existencia de una sola variable de información 
auxiliar continua relacionada con la característica de interés, cuya estructura de 
varianza es inversamente proporcional al comportamiento estructural de la infor- 
mación auxiliar. Así que p =1, Xx = Tk Y Cx = Tf para todo k € U. La formulación 
del modelo está dada por 


Y. = PX. +€x (9.4.1) 


Donde cada uno de los e; k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza xh0?. En donde, 


PI PA (9.4.2) 

Var¿(Y,) = xpo?. 
Lohr (2000) plantea que la utilización del estimador de razón es más adecuada 
cuando la recta que resume la relación entre la característica de interés y la in- 
formación auxiliar pasa por el origen y si la varianza de yz es proporcional a tz, 
es decir a medida que la característica de interés toma valores más grandes, la 
dispersión se hace mucho mayor, justo como se observa en la siguiente figura en la 
que se presenta el gráfico de dispersión entre las variables del modelo y también la 
dispersión del cociente de las dos variables, en donde la relación es muy constante. 


De esta forma, B corresponde a la pendiente de la recta de regresión ponderada 
proporcionalmente a 1/xz,hallada mediante el método de mínimos cuadrados, que 
minimiza la siguiente función: 


Ds o) (9.4.3) 


Mediante la expresión (8.4.6), no es difícil mostrar que bajo el modelo de razón, 
la estimación de P en la población finita es 


t 
B=P (9.4.4) 
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Figura 9.2: Relación en un modelo de razón. 


Sin embargo, en las aplicaciones prácticas, sólo tenemos acceso a los valores de los 
elementos seleccionados en la muestra; por tanto, siguiendo el resultado 8.4.3, la 
estimación de B es 


B=> (9.4.5) 


Resultado 9.4.1. Bajo el modelo de razón, el estimador del total poblacional está 
dado por 


el (9.4.6) 


cuya varianza aproximada es 


AVar(tyr) = Y z Ay Ral (9.4.7) 


con 


Ex =Yk — BIk (9.4.8) 
t 


El estimador de la varianza es 


— Ari €r el 
Var(tygreg) = YY) == (9.4.10) 
Ss 


Tkl Tk TI 


con 
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er =Yx — Box (9.4.11) 
ue 
= Yh — PELpo (9.4.12) 


Prueba. En este punto, el lector debe tener claridad de que el estimador de razón 
es un caso particular del estimador general de regresión. En ese orden de ideas, 
partiendo de la expresión (9.2.11) se tiene que 


tur = lyr T Blte a tam) (9.4.13) 

= byyn + o (to — ta) (9.4.14) 
by 

=P (9.4.15) 


El cálculo de la varianza aproximada y la estimación de la varianza del estimador 
de razón son inmediatos al utilizar el resultado 9.2.3. mn 


Nótese que el estimador de razón hace uso de la información auxiliar de manera 
correctiva. Es decir, la expresión oe hace un ajuste en la estimación de Horvitz- 
Thompson del total de la característica auxiliar y, por lo tanto, la corrige. Un 
aspecto importante del estimador de razón es que verifica el resultado 9.2.2 fácil- 


mente haciendo v' = 0?, por lo tanto 
,P 


Ss 


y es posible escribir el estimador de razón en su forma simplificada. 


tyr = 2 Un (9.4.16) 
U 

=> BE (9.4.17) 
U 


Además, de la expresión (9.2.17) se tiene que 


Ys =1+ (to — tom) (bom) (9.4.18) 
ta 
. (9.4.19) 


Aunque B corresponde a un coeficiente de regresión inducido por el modelo £, 
la verdadera motivación detrás del estimador de razón es que si existe la misma 
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relación entre la característica de interés y la información auxiliar para todos los 
elementos de la población entonces se habla de la razón poblacional estaría dada 
por 


p=? 
dE 


Despejando de la anterior expresión a t, se tiene que 


Aparte de estimar la razón poblacional y utilizar la información auxiliar continua 
para corregir el estimador de Horvitz-Thompson, es posible utilizar el estimador 
de razón en los siguientes casos (Lohr 2000). 


e Cuando se desconoce N y es necesario estimarlo. Debido a que N = t,/2, 
entonces N =t4/Z. 


e Aumentar la precisión de los estimadores de totales y medias poblacionales. 
e Ajustar las estimaciones de la muestra para que reflejen los totales demográfi- 
cos y cuando se presenta ausencia de respuesta. 
9.4.1 Algunos diseños de muestreo 
Muestreo Bernoulli 


Resultado 9.4.2. Si el diseño de muestreo es Bernoulli, el estimador de razón 
toma, su varianza aproximada y el estimador de la varianza están dados por: 


br =te 9.4.20 
Y, Ys LT ( ) 

a 1 
AVargrarltyr) = (2 = 1) Y Es (9.4.21) 


— A 


Vargarltyr)= z (2 - 1) SN Es (9.4.22) 


respectivamente. 


9.4. Estimador de razón 319 


Muestreo aleatorio simple 


Resultado 9.4.3. Si el diseño de muestreo es aleatorio simple, el estimador de 
razón toma, su varianza aproximada y el estimador de la varianza están dados por 


Ts 
2 N? n 
AVarMas(tyr) ==> (1 - 5) SEo (9.4.24) 
pan 7 N? n 
Varmasltyr) ==> (1 = y) Ses (9.4.25) 


respectivamente, con Sia, la varianza poblacional de la variable linealizada Ex y 
Se. la varianza muestral de los valores ez. 


9.4.2 Marco y Lucy 


Volviendo una vez más con la población de empresas pertenecientes al sector in- 
dustrial, suponga que se desea estimar el total de las características de interés 
Ingreso (real en el último año fiscal) y que se utiliza un estimador de razón que 
obedezca al modelo dado por la expresión (9.4.2), en donde esta característica de 
interés está relacionadas con la característica de información auxiliar Número de 
Empleados. Además se supone que la dispersión es constante a lo largo de toda 
la población. Suponga que se selecciona una muestra aleatoria simple de tamaño 
n= 400 


data(Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 

n <- 400 

sam <- S.SI(N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 


VWVWVvVOvovVvoV oVv 


Para computar el estimador del total de la característica de interés se define la 
matriz de información auxiliar, que en este caso particular corresponde a una 
vector de valores que corresponden al número de empleados en cada una de las 
empresas seleccionadas en la muestra y se utiliza la función GREG.S1I del paquete 
TeachingSampling definiendo correctamente los parámetros según el modelo dado 
por (9.4.2). 


estima <- data.frame(Income) 

pik <- rep(n/N,n) 

x <- Employees 

tx <- c(151950) 

b <- E.Betalestima,x,pik,ck=x,b0=FALSE) 

GREG.SI(N,n,estima,x,tx, b, bO=FALSE) 
Income 


VMVWvVOyvoyvV oy 
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Total estimado 1.059225e+06 
Varianza 5.940520e+08 
coeficiente de variación 2.301040e+00 


El siguiente código muestra que la propiedad de calibración se mantiene para 
este modelo. Por supuesto que la multiplicación de los valores observados de la 
característica de interés Ingreso con los pesos de calibración da como resultado la 
misma estimación que al utilizar la función GREG.STI. 


> um <- Wk(x,tx,pik,ck=x,b0=FALSE) 
> sum(xx*w) 

[1] 151950 

> sum(Incomexw) 

[1] 1066829 


A continuación se muestra la tabla de resultados que indica que asumiendo este 
modelo se gana más precisión que en el caso en donde se asume un modelo simple. 


Tabla 9.2: modelo de razón: estimación de los totales de la característica de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 
Ingreso 1035217 1059225 2.30 2.31 


9.4.3 Muestreo estratificado 


Hace una buena cantidad de años la teoría de muestreo era enseñada de una manera 
totalmente distinta a la de hoy en día, en donde se tienen marcos de referencia 
para la creación de cualquier estrategia de muestreo. En ese entonces, el contenido 
temático de un curso de muestreo se enfocaba en repasar cada uno de los diseños 
de muestreo más utilizados y para cada uno de ellos se estudiaban unos cuantos 
estimadores que, por la naturaleza de su concepción, no tenían mayor vínculo el 
uno con el otro. Sin embargo, el espíritu no ha cambiado; puesto que, al igual 
que ahora, el objetivo era mejorar la eficiencia de la estrategia de muestreo. En 
particular, cuando le llegaba el turno al diseño de muestreo estratificado, empezaba 
un desfile de estimadores que tomaban ciertas expresiones particulares para este 
diseño. 


Cuando se trataba de mejorar la eficiencia mediante la incorporación de la infor- 
mación auxiliar en la etapa de estimación, el camino se bifurcaba en dos: 


e En primer lugar, es bien sabido que una de las causas de la estratificación 
es el comportamiento disímil de la característica de interés en cada uno de 
los estratos propuestos. Siendo así, la incorporación de información auxiliar 
amerita la incorporación de tantos modelos como estratos considerados. El 
anterior argumento es lógico puesto que la relación entre la característica de 
interés y la información auxiliar no tiene por qué ser la misma en cada estra- 
to. Por ejemplo, Bautista (1998) considera que la relación entre producción 
industrial y personal ocupado es diferente entre empresas de diferente rama 
de actividad, pero muy parecida entre empresas de la misma rama. Otro 
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ejemplo que podría citarse es la relación entre dinero invertido en recreación 
entre la población de distintos niveles socioeconómicos. 


e Por otra parte, cuando la estratificación se realiza por motivos, demográficos 
o logísticos, es viable pensar que existe una característica de información au- 
xiliar que esté relacionada de igual manera, independientemente del estrato, 
con la característica de interés. Una vez más, Bautista (1998) da el ejemplo 
de la estimación del total de pacientes admitidos a un hospital. Nótese que 
es pertinente pensar en que una característica de información auxiliar sea el 
número de camas en cada uno de los hospitales. De esta forma, la relación 
es invariante al estrato. 


En cada uno de los casos anteriores existen estimadores particulares cuya perti- 
nencia debe ser analizada desde un punto de vista muy crítico y siempre teniendo 
en cuenta el vínculo con el capítulo de estimadores de coeficientes de regresión, 
específicamente si existe la necesidad o no de formular un modelo de grupo. 


Por supuesto, el estimador de razón no es el único estimador con el cual se debe 
hacer el anterior razonamiento. El estimador general de regresión admite este razo- 
namiento cada vez que la estrategia de muestreo involucre un diseño estratificado. 
De tal forma que, cuando se considere el primer caso, es decir tantos modelos como 
estratos, se define el estimador de regresión separada y cuando se considere 
el segundo caso, es decir un sólo modelo para toda la población estratificada, se 
define el estimador de regresión combinada. 


El apellido de estos estimadores generales cambia de acuerdo al estimador que se 
considere. Por ejemplo, si se considera el estimador de razón, se habla entonces 
del estimador de razón separada y del estimador de razón combinada. 


Muestreo aleatorio estratificado: estimador de razón combinada 


Un importante caso particular del estimador de razón, que se rige bajo el modelo 
dado por la expresión (9.4.2) es el estimador de razón combinada cuyo énfasis es 
que, a pesar de que la población esté estratificada, sólo involucra un modelo. 


Resultado 9.4.4. Bajo diseño de muestreo aleatorio estratificado, el estimador 
de razón combinada del total poblacional t,, su varianza y su varianza estimada 
están dados por 
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respectivamente. Donde Si, es la varianza poblacional de la variable linealizada 
h 


Ex en el estrato h-ésimo y 52 s, es la varianza muestral de los valores ej en el 
h 
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estrato h-ésimo. Nótese que 
H 2 
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Prueba. La demostración es inmediata al utilizar los resultados 5.1.3. y 5.1.4 
junto con las expresiones (9.4.6), (9.4.7) y (9.4.10). L 


Muestreo aleatorio simple: estimador de razón separada 


El estimador de razón separada es un caso especial del estimador de razón pero no 
comparte el mismo modelo, aunque sí asume que la población se encuentra estra- 
tificada y en cada estrato se supone un modelo distinto. Se supone la existencia de 
una sola variable de información auxiliar continua relacionada con la característica 
de interés, cuya estructura de varianza es inversamente proporcional al compor- 
tamiento estructural de la información auxiliar. Por otra parte se supone también 
que tanto la característica de interés, como la información auxiliar tienen un com- 
portamiento distinto, y por tanto una relación distinta, en cada uno de los estratos. 
De esta forma, p = l, Xp = Tk Y Ck = T para todo k € U, con h = 1,...,H. 
La formulación del modelo, que comúnmente se conoce como modelo de razón 
separada, está dada por 


Yi. = PnXk +€k para todo h=1,...,H (9.4.29) 


Donde cada uno de los £; k € U,, son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza 207. En donde, 


Es(Yx) = Prtr 


: (9.4.30) 
Varg(Yi) = 5105, 
Resultado 9.4.5. A nivel poblacional, Bj, es estimado por 
By = 20% para todo h=1,...,H. (9.4.31) 
A Yk 
A nivel muestral, B,, es estimado por 
Ba = 25% para todo h=1,...,H. (9.4.32) 


Resultado 9.4.6. Bajo un diseño aleatorio simple el estimador de razón separada 
bajo el modelo (9.4.30), su varianza aproximada y la estimación de la varianza 
están dados por 


í - Y tap Pond (9.4.33) 
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respectivamente. Donde W,, = (Ny — )/(N — 1), ww, = (na — 1)/(n— 1), So, es 
la varianza poblacional de la variable linealizada Ey, en el estrato h-ésimo y Ses 
es la varianza muestral de los valores ez en el estrato h-ésimo. Nótese que 


Ex =Yk — Lo, Y Dh para todo k€ U,, h=1,...,H 
Yu, Yk 


Ck =Yk — Ls, Y Tk para todo k€U,, h=1,...,H 
Node 


Prueba. El espíritu del estimador está enfocado en que como para cada subgrupo 
se tiene un modelo de razón diferente, entonces se deben sumar todos los estima- 
dores resultantes para cada estrato y así se obtiene una estimación insesgada del 
total poblacional de la característica de interés, en otras palabras el estimador de 
t, está dado por 


= Ss, Uk 
turs a E —= MEA Ls 
h 


h=1 h=1 


donde bot hace referencia al estimador de razón en el h-ésimo estrato. Por otra 
parte para probar la aproximación de la varianza se debe tener en cuenta que 
tanto el promedio poblacional como el promedio en cada estrato de las variables 
linealizadas Ej es nulo. Es decir Ey = Ev, = 0 puesto que 
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-=Y Nm 
U h=1 k€U» 

H 
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Con base en lo anterior se tiene que 
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keU keU 
H 
= E Nr 
N-— 
h=1 k€U, 
a A 
== y N=1 (Ex — Ev,,) 
h=1 kEeU» 
H H 
MiTo , 
=D N=1PE0, 2 WiSk 
=1 1=1 


Al utilizar un razonamiento similar se llega a la demostración de la estimación de 
la varianza de forma inmediata. mn 


En general, para cualquier configuración de diseño de muestreo, cuando se trata 
de modelos que involucren grupos poblacionales se habla de modelos combinados 
O separados. Cuando el modelo es combinado, se suponen dos cosas: la primera 
es que todo el modelo aplica a todas las unidades de la población y eso se ve 
reflejado directamente en la forma del estimador y la segunda es que se supone que 
la estrategia de muestreo está inducida por un diseño de muestreo estratificado. 
Por otro lado cuando el modelo es separado, sólo se supone que la población 
está separada en subgrupos poblacionales y que existe un modelo distinto para 
subgrupo. Sea cual sea la configuración en el diseño de muestreo se debe tener 
en cuenta que para cada grupo existe un modelo. Por último, así como en esta 
sección se habló del estimador de razón separada o combinada, también es posible 
hablar del estimador de regresión simple separado o combinado o aún más ge- 
neral, del estimador de regresión general, combinado o separado. En resumen, el 
adjetivo combinado implica la existencia de estratos inducidos directamente por 
la población, mientras que el adjetivo separado implica la existencia de subgrupos 
poblacionales inducidos por el modelo. 


9.5 Estimador de regresión simple 


El estimador de razón encuentra su mejor uso cuando el gráfico de dispersión 
de los datos describe una línea recta que pasa por el origen y si la dispersión 
de la característica de interés aumenta proporcionalmente a la característica de 
información auxiliar. Sin embargo, es común que el gráfico de dispersión de los 
datos describa una línea recta que no pasa por el origen o que la dispersión de la ca- 
racterística de interés sea invariante a la característica de información auxiliar. En 
este último caso, se debe utilizar un estimador de regresión simple pues el modelo 
que lo sustenta tiene en cuenta las características mencionadas anteriormente. 


El estimador de regresión simple está motivado por el modelo de regresión sim- 
ple con intercepto que supone la existencia de una sola variable de información 
auxiliar la cual presenta una fuerte relación lineal con la característica de interés. 


9.5. Estimador de regresión simple 325 


La característica que identifica a este modelo es que la recta de regresión ajus- 
tada no pasa por el origen sino que presenta un intercepto significativo. Sárndal, 
Swensson éz Wretman (1992) afirman que un modelo que contenga el término del 
intercepto dará un mejor estimador de regresión que el modelo de media común o 
el modelo de razón. De esta manera p = 2, Xx = (1,1 )' y cx =1 para todo k € U. 
La formulación del modelo está dada por 


Ye = X 1,8 +€x 


(9.5.1) 
Y = Bo + B1X4 + Ex 


Donde cada un de los e, k € U, son variables aleatorias independientes e idéntica- 
mente distribuidas con media cero y varianza 0?. Para este modelo (8' = (Bo, B1). 
Como resultado de lo anterior se tiene que 


Es(Y) = X18 = Bo + B12x 


Vatj=a (9.5.2) 


Cuando se tiene información auxiliar de tipo continuo que presenta una fuerte 
relación lineal con la característica de interés y describe un intercepto alejado del 
origen es común utilizar el estimador de regresión simple. Una de las características 
del modelo de regresión simple es que la varianza se supone constante en toda la 
población. Es decir, a medida que aumentan los valores de la característica de 
información auxiliar la dispersión en la característica de interés se mantiene igual. 
El siguiente gráfico presenta un ejemplo del tipo de situaciones en las que es 
pertinente utilizar un estimador de regresión simple. 
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Figura 9.3: Relación en un modelo de regresión simple con intercepto. 


Si se tuviese acceso a toda la población finita, el estimador del coeficiente de 
regresión P estaría dado por la minimización de la siguiente función de dispersión 
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D= Y (Y; — do — a) (9.5.3) 
U 


y 


Utilizando el resultado 8.4.2 y recurriendo a la ecuación (8.4.6), el estimador B en 
la población finita toma la siguiente forma 


B = E) (9.5.4) 


En donde 


_— yl — Tu)yr — Yu) 
by TEO, (9.5.5) 


bo = Yu — b1Zy (9.5.6) 
Por supuesto, como en la práctica sólo se tiene acceso a una muestra particular 


de población finita, B debe ser estimado de tal manera que siguiendo el resultado 
8.4.3. el estimador del coeficiente de regresión basado en la muestra está dado por 


B= (1) (9.5.7) 


En donde 
(11 —Ts)HYr—Ys) 
bh, = Ls a (9.5.8) 
A 
y 


bo = Ys — bs (9.5.9) 


Con estas herramientas es posible ahora construir un estimador del total pobla- 
cional de la característica de interés el cual está dado por el siguiente resultado. 


Resultado 9.5.1. Bajo el modelo de regresión simple, el estimador del total po- 
blacional está dado por 


tuyas =N [is +b1(3u —7s)] (9.5.10) 


cuya varianza aproximada es 
A Ex E 
AVar(tyrs) = Y Y AM. (9.5.1) 


con 
Ex = Yhn — Yu — bi(xt; — Ty). (9.5.12) 
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El estimador de la varianza es 


Al € el 


Var t rs) —= ETRE .d. 
Varas do a (9.5.13) 
con Ñ 
€x =Yk — Ys — D1(2; — Ts). (9.5.14) 


Prueba. En primer lugar considere el vector de totales de información auxiliar y 
el vector de estimaciones de los totales de la información auxiliar dado por 


A 


tx = (WN, a y por txor = (Nte 


respectivamente. Ahora, recurriendo a la expresión general (9.2.11) y teniendo en 
cuenta que £, . = N, Ys, se tiene que 


A 


== tl 
= by Hb0(N — No) + br (to — tor) 
= tun + (Gs — d135(N — No) + hr (to — to.) 
= Njs — NbTs + Nórto 


=N ES + b1(2y — Es) 


Por otra lado, el cálculo de la varianza aproximada y la estimación de la varianza 
del estimador de razón se obtienen al utilizar el resultado 9.2.3. y considerando el 
producto vectorial 


x.B = (1,20 (1) 


= bo + b1%k 
Por tanto 
Ex = Yk — xy, B 
= Y» — (bo +b1%r) 
= Y» — (Yu — bity + b11x) 
= Y. — Yu — bi(2y — Ey) 
Análogamente para el caso de ez. nl 


Nótese que fácilmente se puede demostrar que 


Ss 
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y, por lo tanto, es posible escribir el estimador de regresión simple en una forma 
simplificada 


tus A y Ur (9.5.15) 
U 
E (9.5.16) 
U 
Apelando a las expresiones (9.2.16) y (9.2.17) se tiene que 
N 2 
Iks = pl + asítr = Ts)) (9.5.17) 
Nr 
Con Ñ 
Ty — Us 
as = = 
Sed 
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Sárndal, Swensson $ Wretman (1992) manifiestan que en algunas encuestas es 
preferible utilizar el estimador de razón sobre el estimador de regresión simple, 
incluso cuando este último tiene grandes ventajas en la eficiencia sobre el estimador 
de razón. Uno de los motivos de esta preferencia es que el estimador de razón tiene 
una estructura muy simple que resalta cuando se necesitan estimaciones tanto del 
total poblacional de la característica de interés, como de la razón entre dos totales. 


Aunque el estimador de regresión es más eficiente que el estimador de razón cuando 
la línea de regresión no pasa por el origen, es importante notar que esta eficiencia 
resalta mucho más cuando la población y la muestra consta de un número su- 
ficientemente grande de individuos. Esto quiere decir que cuando la encuesta es 
pequeña o mediana, estas propiedades pueden no cumplirse con rigurosidad. 


9.5.1 Marco y Lucy 


Retomando la población de empresas pertenecientes al sector industrial, suponga 
que se desea estimar el total de las características de interés Ingreso y Número de 
Empleados mediante un estimador de regresión simple con intercepto que obedezca 
al modelo dado por la expresión (9.5.2), en donde las características de interés están 
relacionadas con la característica de información auxiliar Impuestos (declarados en 
el último año fiscal) y que supone el mismo comportamiento estructural a lo largo 
de toda la población. Suponga que se selecciona una muestra aleatoria simple de 
tamaño n = 400. 


> data(Lucy) 

> attach(Lucy) 

> N <- dim(Lucy) [1] 
> n <- 400 
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> sam <- S.SI(N,n) 
> muestra <- Lucylsam,] 
> attach(muestra) 


Para obtener la estimación del total de las características de interés se define la 
matriz de información auxiliar, que en este caso particular corresponde a una ma- 
triz conteniendo dos vectores columna: el primero, un vector de unos y el segundo 
un vector de valores correspondientes a la observación de los impuestos declara- 
dos por las empresas seleccionadas en la muestra aleatoria. El siguiente paso es 
la utilización de la función GREG.SI del paquete TeachingSampling definiendo 
correctamente los parámetros según el modelo dado por (9.5.2) 


> estima <- data.frame(Income, Employees) 
> pik <- rep(n/N,n) 
> x <- Taxes 
> tx <- c(N,28654) 
> b <- E.Betalestima,x,pik,ck=1,b0=TRUE) 
> GREG.SI(N,n,estima,x,tx, b, bO=TRUE) 
Income Employees 
Total estimado 1.030302e+06 1.506098e+05 
Varianza 1.534930e+08 7.299305e+06 


coeficiente de variación 1.202485e+00 1.793856e+00 


El siguiente código muestra que la propiedad de calibración se mantiene para este 
modelo. Véase que la multiplicación de los valores observados de cada una de las 
características de interés con los pesos de calibración da como resultado la misma 
estimación arrojada por el anterior código. 


> y <- Wk(x,tx,pik,ck=1,b0=TRUE) 
> sum(xx*w) 

[1] 28654 

> sum(1x*w) 

[1] 2396 


A continuación se muestra la tabla de resultados que indica que asumiendo este 
modelo se gana mucha más precisión y eficiencia que en el caso en donde no 
se asume ningún modelo o el modelo asumido no es acorde con el estado de la 
naturaleza del sector industrial. 


Tabla 9.3: modelo de regresión simple: estimación de los totales de las característi- 
cas de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 
Ingreso 1035217 1030302 1.20 0.47 
Empleados 151950 150609 1.79 0.88 
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9.6 Post-estratificación 


En muchas situaciones prácticas es útil estratificar la población. Sin embargo, 
si el marco de muestreo no incluye la variable de estratificación, para todas las 
unidades de la población, es imposible pensar en un diseño de muestreo estra- 
tificadd'] Cochran (1977) afirma que algunos ejemplos particulares en donde no 
se conoce la pertenencia de las unidades antes de la recolección de los datos son 
características personales como la edad, el género, la raza y el nivel educativo. 
Nótese que el total poblacional de las anteriores variables, que inducen subgrupos 
poblacionales, puede ser conocido recurriendo a alguna fuente externa confiable o 
a estadísticas oficiales. Por lo tanto, es posible construir un estimador que tenga en 
cuenta el conocimiento de estos totales y que incorpore la información recolectada 
en la muestra acerca de la pertenencia de cada unidad a un subgrupo poblacional 
(Holt $z Smith 1979, Jagers 1986). 


Antes de continuar con la construcción de dicho estimador, es pertinente hacer un 
recuento de cómo influyen los subgrupos poblacionales en el desarrollo de la teoría 
de muestreo. De esta manera, el estadístico estará en capacidad de discernir acerca 
de la mejor estrategia de muestreo cuando su investigación involucre la estimación 
en subgrupos poblacionales. 


9.6.1 Subgrupos poblacionales 


Aunque el marco de referencia de la teoría de muestreo es la estimación de un 
parámetro de interés sobre alguna característica de interés, lo cierto es que en la 
práctica no sólo se necesitan estimaciones que cobijen la población entera sino que 
también son indispensable estimaciones que involucren subgrupos poblacionales. 


Los subgrupos poblacionales inducen una partición de la población definida de la 


siguiente manera. Sean Ur,...,Uy,...,Uc subgrupos poblacionales tales que 
G 
(J=% U¿[YUn=0, sigAh (9.6.1) 
g=1 


Además si N, es el tamaño absoluto de U, se tiene que a N¿= N. Por otra 
parte, los subgrupos poblacionales también inducen una partición en la muestra 


realizada S = s mediante subconjuntos s1,...,Sg,...,SG, con sy = U¿(s, tales 
que 
G 
El Sy =8S; Sy As» =0, sigAh. (9.6.2) 
g=1 


Si el tamaño de la muestra realizada es n y el tamaño de sy es ny se tiene que 


G 
2g=1Ng =N. 


3Nótese que un requisito indispensable para realizar un diseño de muestreo estratificado es el 
conocimiento a priori de la pertenencia de todos y cada uno de las unidades que conforman la 
población a los estratos propuestos. 
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En general, cuando se habla de subgrupos poblacionales se está haciendo referencia 
a dominios de interéd!] estratos Jo post-estratos?] Cuando se hace referencia 
a subgrupos poblacionales, es indispensable conocer en qué se diferencian cada uno 
de ellos pues de esto depende que las investigaciones arrojen resultados confiables 
mediante el planteamiento de la mejor estrategia de muestreo. 


e Dominios de interés: este tipo de subgrupos poblacionales son aquellos pa- 
ra los cuales se requieren estimaciones separadas del parámetro de interés. 
Estos requerimientos se planean en la etapa de diseño para asegurar que el 
diseño de la muestra sea tal que al momento de la recolección de la infor- 
mación exista una buena cobertura en cada uno de los dominios de interés. 
Lo anterior sólo se puede lograr ampliando el tamaño de muestra n puesto 
que el marco de muestreo no informa acerca de la pertenencia de los indi- 
viduos a los dominios de interés. Los aspectos más importante de esta clase 
de subgrupos poblacionales son que el número de individuos en la muestra 
que pertenecen a un dominio ng de interés es siempre aleatorio, y para al- 
gunos dominios particulares puede llegar a ser muy pequeño. Por otro lado, 
el tamaño absoluto de cada dominio Ng no se conoce ni antes de la etapa de 
diseño ni después de la etapa de estimación. 


e Estratos: cuando el marco de muestreo permite conocer la pertenencia de 
todos los individuos de la población a un subgrupo poblacional, se dice que 
esta clase de subgrupos se llaman estratos. Más aun, cuando se sabe que la 
característica de interés tiene un comportamiento distinto en cada uno de los 
estratos y se planea un diseño de muestreo que tenga en cuenta este aspecto 
mediante la selección aleatoria de unidades en cada uno de los estratos, se 
dice que el diseño de muestreo es estratificado. El aspecto fundamental de 
esta clase de subgrupos poblacionales es que el conocimiento de la pertenen- 
cia de los individuos a los estratos se incorpora en la etapa de diseño de la 
muestra. Nótese que a diferencia de los dominios, en los estratos se conoce 
tanto N, como n, antes de la etapa de estimación. 


e Post-estratos: la propiedad que caracteriza a este tipo de subgrupos po- 
blacionales es que aunque en la etapa de diseño el tamaño del post-estrato 
N, es conocido, se desconoce el número de individuos que pertenecerán al 
post-estrato ny en la muestra realizada. Al respecto Sárndal, Swensson é 
Wretman (1992) proclaman que existen dos situaciones en las cuales se pre- 
senta esta situación, llamada post-estratificación: 


1. El marco de muestreo es tal que se conoce la pertenencia de todos los 
elementos a los subgrupos poblacionales pero el investigador decide no 
utilizar esta información en la etapa de diseño. Las razones para esto son 
diversas pero principalmente se decide obviar este tipo de información 
por practicidad logística. Una vez que se ha realizado la selección de 
la muestra, se observa la característica de interés yz en los individuos 
tales que k € S. El investigador decide utilizar la información auxiliar de 
pertenencia a los post-estratos en la etapa de estimación para mejorar 


4La notación para los dominios un dominio de interés es Uq, d=1,...,D. 
5La notación para los estratos es Up, h=1,...,H. 
SLa notación para los post-estratos es Us, 9=1,...,G. 


332 9. Estimación con información auxiliar 


la eficiencia de la estrategia de muestreo, en particular del estimador 
propuesto. 


2. Mediante alguna fuente de información confiabld”] se conocen los ta- 
maños absolutos Ny de cada subgrupo poblacional aunque se desconoce 
la pertenencia de los individuos a los subgrupos pues el marco de mues- 
treo presenta esta deficiencia. Después de la etapa de diseño, se observa, 
la característica de interés y se pregunta acerca de la pertenencia de los 
individuos seleccionados en los post-estratos de tal forma que en la eta- 
pa de estimación se utiliza esta información para mejorar la eficiencia 
de los estimadores de los parámetros de interés*] 


Es en el caso de los subgrupos poblacionales llamados post-estratos que nos enfo- 
caremos en las próximas secciones, describiendo cómo es posible crear estimadores 
eficientes bajo este marco de referencia y cómo influye un modelo de análisis de 
varianza (ANOVA) en el desarrollo teórico desde el punto de vista de los modelos 
lineales. 


9.6.2 El estimador de post-estratificación 


El estimador de post-estratificación utiliza la incorporación de la información au- 
xiliai]?] para reducir el sesgo generado por el desconocimiento de la pertenencia de 
los individuos a los subgrupos poblacionales. En general, el uso de la información 
auxiliar en la etapa de estimación mejora la calidad de la encuesta puesto que 
(Zhang 2000): 


1. Reduce la varianza muestral de las características altamente relacionadas 
con la información auxiliar. 


2. Reduce el sesgo, especialmente el sesgo causado por errores no muestrales 
tales como la ausencia de respuesta y la subcobertura del marco de muestreo. 


3. Impone consistencia con los resultados obtenidos mediante fuentes oficiales. 


El estimador de post-estratificación tiene muchas ventajas; entre ellas es el esti- 
mador máximo verosímil bajo un marco de referencia muy general en el cual se 
demuestra que tiene varianza mínima (Jagers 1986) por tanto este estimador ofre- 
ce protección contra configuraciones muestrales desfavorables siendo considerado 
como un estimador robusto (Holt z Smith 1979). 


El estimador de post-estratificación puede ser visto como un caso particular del 
estimador general de regresión donde las características de información auxiliar 
corresponden a variables indicadoras de los subgrupos poblacionales. Este enfoque 
fue adoptado por Bethelehem éz Keller (1987) y en esta sección se le dará el 
mismo enfoque. En general, el proceso de post-estratificación se desarrolla bajo dos 
modelos grupales que inducen diferentes estimadores conocidos como el estimador 


TCensos, registros externos o estadísticas oficiales 

SEn este apartado el investigador debe planear muy bien el diseño muestral de tal manera que 
exista una buena cobertura en los post-estratos puesto que el estimador puede resultar sesgado. 

%Mediante los totales poblacionales Ny de los post-estratos 
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de media post-estratificada y el estimador de razón post-estratificada. Los siguien- 
tes apartados darán cuenta de la concepción y construcción de cada uno de ellos 
desde el punto de vista de los modelos lineales. 


9.6.3 Estimador de media post-estratificada 


La incorporación de la información auxiliar en el estimador de post-estratificación 
se hizo mucho antes de que se utilizaran los modelos lineales en la construcción de 
un estimador asistido por modelos. Sin embargo, siguiendo el hilo conductor del 
capítulo, realizaremos la construcción del mismo estimador de post-estratificación 
mediante la incorporación de un modelo lineal de tipo ANOVA (o de media post- 
estratificada) que supone la existencia de una sola característica auxiliar de tipo 
discretd'Y] que tiene G niveles o post-estratos. Un supuesto fuerte alrededor del 
modelo ANOVA es que la característica de interés es altamente correlacionada con 
los post-estratos inducidos por esta característica discreta. Se tiene que p = G, 
Xx = dí = (0,0,...,1,...,0,0) y cx = 1 para todo k € U. De esta manera, el 
G grupos 
vector de totales de la característica de información auxiliar discreta está dado por 


tx = (Ni... Ny... Ng) (9.6.3) 


y el vector de totales estimados de la característica de información auxiliar discreta 
está dado por 


A 


A A (9.6.4) 


La formulación del modelo está dada por 


YA = d;./3 + Ek: = By + Ek (9.6.5) 


Donde 8 = (B1,...,Bg,---. Ba) y cada uno de los ey, k € U son variables aleatorias 
independientes e idénticamente distribuidas con media cero y varianza cn Nótese 
que dy = (dix, ...y dur, ..s dar) con 


1 i¡k€UÚ, 
das AE (9.6.6) 
0, en otro caso. 
Luego el modelo de super-población está dado por 
Es(Yi) = d8 = $ 
¿(Yr) k g (9.6.7) 


Var¿(Y,) = 0. 


Sárndal, Swensson dz Wretman (1992) explican que este modelo es eficiente cuando 
la característica de interés es homogénea dentro de los post-estratos U, (y = 


10A diferencia de los demás estimadores considerados en este capítulo que suponen la existencia 
de una característica auxiliar de tipo continuo. 
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1,..., G) pero disímil y heterogénea entre cada uno de los post-estratos. Cuando las 
anteriores condiciones se satisfacen entonces el modelo ANOVA explicará una gran 
parte de la dispersión de la característica de interés. Es común utilizar el estimador 
de post-estratificación cuando el gráfico de dispersión entre la característica de 
interés y la característica de información auxiliar define una recta de regresión 
constante y paralela al eje de las abscisas, para todos y cada uno de los post- 
estratos, como se puede observar la figura 9.4. 


Grupo 1 Grupo 2 Grupo 3 


Figura 9.4: Relación en un modelo de media post-estratificada. 


Si se tuviese acceso a toda la población finita, el estimador del coeficiente de 
regresión 8 estaría dado por la minimización de la siguiente función de dispersión 


D=Y MESBr. (9.6.8) 
U 


Utilizando el resultado 8.4.2 y recurriendo a la ecuación (8.4.6), el estimador B en 
la población finita toma la siguiente forma 


B = (B,,B2,..., Ba) (9.6.9) 
En donde 
Yk 
3, = 20% g=1,...,G (9.6.10) 
N, 


Por supuesto, como en la práctica sólo se tiene acceso a una muestra particular 
de población finita, B debe ser estimado de tal manera que siguiendo el resultado 
8.4.3. llegamos a la siguiente expresión 


B=(B1,Bo,..., Bay (9.6.11) 


En donde 
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ES 1 t U,,7 Po 
B,=| YN —= y . = Yet = ja, (9.6.12) 
S 


Con estas herramientas es posible ahora construir un estimador del total pobla- 
cional de la característica de interés el cual está dado por el siguiente resultado. 


Resultado 9.6.1. Bajo el modelo de media post-estratificada, el estimador del 
total poblacional está dado por 


ovas = E NyYs, (9.6.13) 
do 
= y A e (9.6.14) 
g=1 keSy 
n, 0 


cuya varianza aproximada es 


a Ex E 
AV ar(ty.mpos) = $ $ Am. (9.6.15) 
U Tk T 
con 
Ex = Yx — Yu, g=1,...,G. (9.6.16) 


El estimador de la varianza es 


A Aki €k €1 
Var(tympos) = > a (9.6.17) 
3, Tk Tk TI 
con 
€k =Yk — Ys, g=1,...,G. (9.6.18) 


Prueba. Nótese que el estimador de post-estratificación es un caso particular del 
estimador general de regresión. Entonces, por la configuración particular de xx y 
adecuando la expresión (9.2.11) se tiene que 
os = e A (ta E tun) B 
= tyn +H(Ni— Nils, +... + (Wa — Ñam)Is.a 
= Nigs, +--- + NaYs 


G 
= yy Ngys, 
g=1 
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El cálculo de la varianza aproximada y la estimación de la varianza del estimador 
de razón son inmediatos al utilizar el resultado 9.2.3. Notando que 


Ex == X,B == By =Uk VU, 


Análogamente con ex. mn 


De manera similar al estimador de media común, el espíritu de este estimador 


está en la corrección que hace al estimador de Horvitz-Thompson mediante el 
. N ; E , 
cociente —. De esta forma, cuando el estimador de Horvitz-Thompson está sub- 


g,7T 
estimando o sobreestimando el total poblacional, entonces este cociente corrige 
inmediatamente esta sub o sobre estimación para cada uno de los post-estratos o 
subgrupos poblacionales. 


Por otro lado, fácilmente se puede demostrar que 


€x 
8) 
Ss Tk 
Lo anterior se tiene puesto que, 
Ck Yk de”. 
> BS an > e > —=B 
3 Tr GT GT 
2 A G 
e YU, ,T S YUGIT 2 
= tur Nur Nur o to) aa 0 
U,,7 U,,7 g=1 


Como consecuencia de esto, es posible escribir al estimador de media común en la 
forma simplificada, teniendo en cuenta que Y, = x,,B = By = Ys, cuando k € U. 
Por tanto 


G G 
A A, ANA, A a 
ty,mpos == » Yk = » Y = Nyys, 
U g=1 Uy g=1 


Ys =1+ 2 = 2 (9.6.19) 


Al respecto de este estimador de media post-estratificada (Lohr 2000) explica que 
es posible obtener varianzas muy pequeñas cuando los post-estratos se conforman 
después de la recolección de la información así como es posible obtener diferentes 
p-valores cuando se decide acerca de la hipótesis nula después de la observación 
de los datos. 
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Diseño de muestreo aleatorio simple 


Es en este diseño de muestreo que el estimador de media post-estratificación toma 
su expresión más utilizada y más conocida. De hecho, en la jerga técnica estadística 
cuando se menciona el estimador de post-estratificación, se está haciendo 
referencia al estimador de media post-estratificada bajo un diseño de muestreo 
aleatorio simple. 


Resultado 9.6.2. Si el diseño de muestreo es aleatorio simple, el estimador de 
media post-estratificada, su varianza aproximada y el estimador de la varianza 
están dados por las siguientes expresiones 


G 
nas ss > N¿ys, (9.6.20) 
g=1 
n, 0 
, N? NN 
VaruAs[tympos) = ” (1 a) y a 1 Sin, (9.6.21) 
g=1 
— A N? ny En, -1 
Varmas(tymc) = (1 a) DE e (9.6.22) 
g=1 


respectivamente. Donde Yu, = rev, Yn/Ng Y Ys, = Dres, Yn/Mg> So, es la 
varianza poblacional de los errores Ex = Yx — Yu, para k € Uy dada por 


Séo, = 17 Y (0 Jo), (9.6.23) 


1 
2 NN a 
Ses, NN ny — 1 > (Yr > Ys,). (9.6.24) 


Prueba. El resultado se sigue inmediatamente al aplicar los principios del esti- 
mador de Horvitz-Thompson a las expresiones (9.3.7) y (9.3.10) bajo el diseño de 
muestreo aleatorio simple. Nótese que bajo el diseño de muestreo aleatorio simple, 
E=0 y (e) =0. Por lo tanto, partiendo de 


16 (1 Es 5) so (9.6.25) 


n 
keU 


y teniendo en cuenta que 
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1 a 
2 =— Ex- E ¿6:2 
Sky N-1 2 k LE) (9.6.26) 
G 
1 
1 Y” Y (y Ju,) (9.6.27) 
g=1keU-g 
G 
N,-1 
Y rs (9.6.28) 


se tiene el resultado de la varianza. Se deben seguir pasos análogos para encontrar 
la expresión de la estimación de la varianza. ] 


Nótese que aunque el estimador de post-estratificación toma una expresión muy 
similar al estimador de Horvitz-Thompson bajo un diseño estratificado. Es en 
este punto donde Smith (1991) se pregunta cómo evaluar las propiedades del es- 
timador... ¿se debería retornar al diseño aleatorio simple (como se refleja en el 
resultado anterior) o se debería utilizar las propiedades del diseño estratificado? 
La respuesta a la anterior pregunta se ha convertido en objeto de una ardua in- 
vestigación. Sin embargo, desde un punto de vista pragmático, es muy común 
encontrar que en muchas investigaciones la inferencia que se hace con respecto al 
estimador de post-estratificación sea condicional al tamaño de muestra de cada 
uno de los subgrupos y, por consiguiente, las expresiones de varianza no son las 
mismas que las mostradas en el anterior resultado. Sobre esta discusión, Tille €z 
Ardilly (2006) menciona que este estimador es insesgado siempre y cuando en la 
muestra realizada existan individuos pertenecientes a todos y cada uno de los post- 
estratos; es decir ny 4 0. Ahora, este tipo de análisis está condicionado al evento 
ng[S) = ny AVg = 1,...,G y los resultados que se presentan a continuación 
siguen esa ided] 

En primer lugar nótese que el tamaño de muestra en cada post-estrato ny, Y = 
1,...,G. es una variable aleatoria y, de esta manera, se tiene la siguiente propiedad. 


Resultado 9.6.3. La esperanza y varianza de la variable aleatoria ny están dadas 
por 


E(n¿)= ny Var(n¿) =n2? Y g=1,...,G.  (9.6.29) 
respectivamente. La probabilidad de que al seleccionar una muestra, un post- 
estrato quede sin representación está dada por 


(NN)! (Nm)! 
(N-N,-m1 Ni 


Pr(n¿ =0) = 


donde N = Ap N, yn= a nh- 


lNótese que fácilmente se pudieron desarrollar las fórmulas de varianza de manera incondi- 
cional partiendo de los resultados que caracterizan al estimador general de regresión. 
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Prueba. La distribución de n, es hipergeométrica definida como 
NY (N=N 
Ult) 
N 
( 


Al desarrollar la anterior expresión cuando r = 0 se llega al resultado. nm 


Pr(n¿ =r)= E 


Con el resultado anterior es posible garantizar que la probabilidad de ny = 0 sea 
muy pequeña al establecer la siguiente condición 


Ny 
np > 30. (9.6.30) 


Por otro lado, para realizar el análisis condicional se define el evento A denotado 
como 


>1.  g=1...,G. (9.6.31) 


Se puede demostrar la distribución de la muestra aleatoria S condicionada a una 
configuración particular y fija de los tamaños de muestra en cada uno de los post- 
estratos, por ejemplo n, = (n1,...,ng), es idéntica a la probabilidad de selección 
de una muestra estratificada al tratar a cada subgrupo poblacional como un estrato 
en el que, de manera independiente, se seleccionan ny individuos de N, para cada 
subgrupo Uy; g=1,...,G. 


Resultado 9.6.4. Dada una configuración fija de los tamaños de muestra en cada 
estrato y bajo el evento A¡, el estimador de media post-estratificada es insesgado 
para el total poblacional de la característica de interés. Su varianza y el estimador 
de la varianza se encuentran dadas por las siguientes expresiones 


G 
dl 1 il 
Varmas[ty,mpos A, ns) — y N; (= = 7) Sis (9.6.32) 
g=1 ng 9 ié 
— = E 
Varmas capos A, ns) = y N; (E = 7) e (9.6.33) 
G=1 Ng Y Ñ 


respectivamente. Nótese que Var mAs ( impo As ns) es un estimador condicional- 
mente insesgado de Varmas (evisos A, 15): 


Prueba. Nótese que el estimador de media post-estratificada es idéntico al es- 
timador de Horvitz-Thompson bajo un diseño aleatorio estratificado. Por tanto, 
utilizando el resultado 5.2.3. se tiene que 


G 
Ex usos A, ns) => y NyEmaslys,) 


g=1 
n,%0 


G 
= Y Nygo, =ty 
g=1 


n q 0 


340 9. Estimación con información auxiliar 


y una vez más accediendo al resultado 5.2.3 la varianza del estimador está dada 
por la clásica varianza del diseño aleatorio estratificado, la cual después de un poco 
de álgebra se convierte en la expresión de este resultado. 


1 Ny N, 

G 
2 am) 
51 9 tá Ny YUy 


Análogamente se tiene el resultado para el estimador de la varianza y su insesga- 
miento viene de que Sz, es condicionalmente insesgado para Sf,, . a 
g 9 


Holt € Smith (1979) consideró el problema de la inferencia condicional bajo una 
muestra dada y concluyen que ésta debería ser usada en la etapa de estimación 
dado que las otras posibles configuraciones distintas a la observada se consideran 
irrelevantes en el momento de la inferencia. Por otro lado, también es posible 
realizar un análisis incondicional en la etapa de diseño puesto que permite escoger 
una estrategia de muestreo adecuada. 


El análisis incondicional empieza al definir la cantidad E; (-) como la esperanza 
bajo la distribución de n;,, la cual es hipergeométrica multivariante. Por tanto se 
tiene el siguiente resultado. 


Resultado 9.6.5. El estimador de media post-estratificada es incondicionalmente 
insesgado para el total poblacional de la característica de interés. Su varianza 
aproximada se encuentran dada por la siguiente expresión 


G 
pe (N—=N)S3,, (9.6.34) 


a 


Varmas EN mpos |A) = ds 


Prueba. El insesgamiento del estimador se tiene del resultado 9.6.4 puesto que 
Ema roms 14) = Ej Encas llos 14, ns]) = Ej (ty) = ty 
Por otro lado, nótese que 


Varmas apo 4) = Ej (Varmas aos A, ns)) 
+ Var; (alas (A, ns])) 


El último sumando de la ecuación anterior es nulo porque 


Var; (Emas[tympos A, ns)) = Var; (t,,) = 0 


y como ny es una cantidad aleatoria, entonces 


G 
% 1 1 

E, (Varmasltympos (4, ns]) = > Ni (2 A S 7) e (9.6.35) 
g=1 ng 9 
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Por tanto se debería calcular E (2, pero este proceso es muy dispendioso. En 
gq 
vez de esto, es posible aproximar esta expresión definiendo la siguiente cantidad 


2 (5) 2537) 


Donde 


Si el tamaño de la muestra se considera grande, es posible afirmar que y es una 
cantidad cercana a cero. Por tanto, utilizando un desarrollo de series matemáticas 
geométricas se tiene que 


1 
T— =1+p+p+... 
1-6 


y por consiguiente se obtiene la siguiente aproximación de segundo orden al utilizar 
la ecuación (9.6.28). 


s(2)= 3 E(1+p+”) 


Ng ng) 


N NN NN, NV? 
= E 1+ (1 2) + (3 y 
nNy n Ny n Ny 
EOS € 1 N”Var(ny) 
nNy naN? 
NN (N-NIN N-n 
nN, N? n2(N—1) 


Por lo tanto reemplazando en (9.6.35) se tiene que 


N 


-n É N(N—n) E 
Varas (bympos 14) = Noa, + ay 20 — Ss, 
g=1 = 


n n?( ee 


Marco y Lucy 


Una vez más volviendo a la población de empresas pertenecientes al sector in- 
dustrial, suponga que se desea estimar el total de las características de interés 
mediante un estimador de post-estratificación que obedezca al modelo dado por la 
expresión (9.6.7), en donde las características de interés presentan diferentes com- 
portamientos en la característica Nivel industrial que es constante (a través de 
cada subgrupo poblacional inducido por Nivel) y que supone un diferente compor- 
tamiento estructural a lo largo de toda la población, aunque homogéneo dentro de 


cada subgrupo. Suponga que se selecciona una muestra aleatoria simple de tamaño 
n = 400. 
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data (Lucy) 
attach(Lucy) 

N <- dim(Lucy) [1] 

n <- 400 

sam <- sample(N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 


VWVVvyvVvoyvVv Vo V 


Para computar el estimador del total de las características de interés se define 
la matriz de información auxiliar, que en este caso particular corresponde a una 
matriz de variables «<Dummy> cuyos vectores columna indican la pertenencia o no 
de una empresa seleccionada en la muestra al subgrupo poblacional. Por otro lado, 
se deben definir debidamente los parámetros de la función GREG.SI del paquete 
TeachingSampling según el modelo dado por (9.6.7) 


> x <- Domains(Level) 
> estima <- data.frame(Income, Employees, Taxes) 
> pik <- rep(n/N,n) 
> tx <- c(83,737,1576) 
> b <- E.Betalestima,x,pik,ck=1,b0=FALSE) 
> GREG.SI(N,n,estima,x,tx, b, bO=FALSE) 
Income Employees Taxes 
Total estimado 1.030412e+06 1.502250e+05 2.824712e+04 
Varianza 1.933308e+08 8.282488e+06 6.452495e+05 


coeficiente de variación 1.349396e+00 1.915747e+00 2.843738e+00 


El siguiente código muestra que la propiedad de calibración se mantiene para este 
modelo. Por supuesto que la multiplicación de los valores observados de cada una 
de las características de interés con los pesos de calibración da como resultado la 
misma estimación que al utilizar la función GREG.STI. 


> um <- Wk(x,tx,pik,ck=1,b0=FALSE) 
> sum(x[,1]*w) 

[1] 83 

> sum(x[,2]*w) 

[1] 737 

> sum(x[,3]*w) 

[11 1576 

> sum(1x*w) 

[1] 2396 


A continuación se muestra la tabla de resultados que indica que asumiendo este 
modelo se gana mucha más precisión que en el caso en donde no se asume ningún 
modelo y se realizan las estimaciones directamente como en el caso del diseño 
de muestreo aleatorio simple. Nótese que para este caso particular, no se tuvo a 
la mano ninguna característica de información auxiliar sino que el modelo estuvo 
inducido por un simple vector de constantes que mejoro la estimación y la precisión. 
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Tabla 9.4: Modelo de media post-estratificada: estimación de los totales de las 
características de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1030412 1.34 -0.46 
Empleados 151950 150225 1.91 -1.13 
Impuestos 28654 28247 2.84 -1.42 


9.6.4 Estimador de razón post-estratificada 


Existe una gran cantidad de modelos que involucran subgrupos poblacionales. En 
este apartado vamos a considerar el estimador de razón post-estratificada que está 
sustentado en el modelo que lleva el mismo nombre, el cual supone la partición 
en G grupos de la población finita. De tal manera que U = (U,,Uz,...,Ug). Se 
asume que es posible definir un modelo de razón en cada uno de los subgrupos U, 
g=1,...,G. Así que se considera que la razón entre la característica de interés y 
la información auxiliar es constante dentro de cada subgrupo pero distinta entre 
cada subgrupo. Luego, p = E, Xx = dxtx = (0,0,...,Uk,...,0,0) y Cx = Tg 
G grupos 

para todo k € U,. De esta manera, el vector de totales de la característica de 
información auxiliar discreta está dado por 


x= (lego corte rte) (9.6.36) 
donde 
E gal E (9.6.37) 
Us 


y el vector de totales estimados de la característica de información auxiliar discreta 
está dado por 


br = ley, m + teu, mo tay) (9.6.38) 
donde 


O (9.6.39) 
UNA 


La formulación del modelo de razón post-estratificada está dada por 


Ya. = 7 + €Ex8 (9.6.40) 
=B Xp +e  g=1,...,G. (9.6.41) 
Donde 8 = (B1,...,By,---, BG) y cada uno de los e, k € U, son variables alea- 


torias independientes e idénticamente distribuidas con media cero y varianza 0% 
para g =1,...,G. Tenga en cuenta que Xy = (di %p,...,AgkTk,---, dAGKTk)” Con 
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l, sik 
a ba (9.6.42) 
0, en otro caso. 
Luego el modelo de super-población está dado por 
Es(Yx) =X1,8 = B,z 
(Yi) =X4 8 = PyZr (9.6.4) 


Var¿(Y,) = DO: 


La siguiente figura muestra el comportamiento de la relación entre la información 
auxiliar y la característica de interés bajo un modelo de razón post-estratificada. 


Grupo 1 Grupo 2 Grupo 3 


100 
100 
ñ 
100 


y3 
y2 


Figura 9.5: Gráfico de dispersión de un modelo de razón post-estratificada. 


Sárndal, Swensson € Wretman (1992) plantean dos ejemplos que sirven para des- 
cribir cuándo utilizar este modelo de razón post-estratificada. El primero se refiere 
a la situación en donde la característica de interés yz está dada por el salario 
anual que una empresa paga durante un año a todos sus empleados y en donde 
la característica de información auxiliar x, es el ingreso neto que la empresa re- 
gistra durante el mismo año. Bajo la anterior situación, es pertinente pensar que 
las empresas de un mismo grupo industrial tienen una razón yx/xx homogénea; 
pero las empresas de diferente grupo industrial no compartirán esa misma razón. 
El segundo ejemplo considera que la población, constituida por personas, puede 
ser particionada por subgrupos de edad o género. Si la característica de interés 
y, es la cantidad de dinero anual que las personas gastan en recreación y si la 
característica de información auxiliar 1, es el salario que estas personas reciben 
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anualmente, entonces es razonable suponer que la razón y; /27 será la misma para 
personas del mismo subgrupo, pero distinta para personas de distinto subgrupo. Si 
se tuviese acceso a toda la población finita, el estimador del coeficiente de regresión 
f estaría dado por la minimización de la siguiente función de dispersión. 


7 
D= A a (9.6.44) 


Utilizando el resultado 8.4.2 y recurriendo a la ecuación (8.4.6), el estimador B en 
la población finita toma la siguiente forma 


B=(B1,B2,..., Ba) (9.6.45) 
En donde 
y= Lo, ze g=1,.. 
E Tk 
Por supuesto, como en la práctica sólo se tiene acceso a una muestra particular de 


la población finita, B' debe ser estimado de tal manera que siguiendo el resultado 
8.4.3. llegamos a la siguiente expresión 


B E: (9.6.46) 


B=(B1,Bo,..., Bay (9.6.47) 
En donde 
> LE Ñ 1 
qa 2 = z a ]= E] nr (9.6.48) 


De esta manera, es posible ahora construir un estimador del total poblacional de 
la característica de interés. El siguiente resultado da cuenta de ello. 


Resultado 9.6.6. Bajo el modelo de razón post-estratificada, el estimador del 
total poblacional está dado por 


G 

sos 5 y Naty ¿Ba (9.6.49) 

g=1 

n, 0 

cuya varianza aproximada es 
A Ex Ej 
AV t mpos 2 A . .D. 

ar(tympos) = 2.2 o (9.6.50) 


con 


Ex = Yk — ByUk g= 1,...,E. (9.6.51) 
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El estimador de la varianza es 


— 0 Axl €k €1 
Vartimpeli= De, DE aa (9.6.52) 
Ss 
con 
ex =Yx — BaTr g=1,...,G. (9.6.53) 


Prueba. Como el estimador de razón post-estratificada es un caso particular del 
estimador general de regresión; entonces, por la configuración particular de xp y 
adecuando la expresión (9.2.11), se tiene que 


G 
= tun =D feo, Bo + Y tao, Bo 
g=1 g=1 
G G 
= tun — Y tuoz oe +) tao, Bo 
g=1 g=1 
G 
= y Nygys, 
g=1 


El cálculo de la varianza aproximada y la estimación de la varianza del estimador 
de razón son inmediatos al utilizar el resultado 9.2.3. Notando que 


Ex = Y —XB = yn — BgUr g=1,...,G. 
Análogamente con ex. nm 


Por otro lado, fácilmente se puede demostrar que 


Ss 


puesto que 


Cr k xp 
DN =D. =D, 
T T TT 
AR tk Ez ne 
A A tyu, 7 o buuarr 
= ty teo, Tr teugrr A 
too, ,T teugrr 
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Como consecuencia de lo anterior, es posible escribir al estimador de razón post- 
estratificada en la forma simplificada, teniendo en cuenta que Y, = X,,B = B,tx 
cuando k € U,. Por tanto 


G G G 
A A, A AS AA A A 
ty,mpos == » Yk = » Yk = By Tk = > tao, g 
U g=1 U, g=1 Us g=1 


teu, — 
Ys =1+ 2 ”=- g=1,...,G. (9.6.54) 


YTU¿T teu, T 


Muestreo aleatorio simple 


Resultado 9.6.7. Bajo un diseño de muestreo aleatorio simple, el estimador de 
razón post-estratificada, su varianza aproximada y la estimación de la varianza 
están dados por 


=D 
5 S. Yk 
t ,rpos — ta > (9.6.55) 
y,Tp 2, e a 
z N? AE 
Varmas(by.spos) = => (1 z y) NW, (9.6.56) 
g=1 
G 5 2 
Da A n Eu, A N 
Varumarltyrpos) == (1 a) y (E ) ” a Ss (9.6.57) 
g=1 g Sy 


respectivamente. Donde W, = (N¿—1)/(N—1) y Sz,, es la varianza poblacional de 
9 
la variable linealizada Ey, en el post-estrato g-ésimo y S? ., €s la varianza muestral 
g 
de los valores ej en el post-estrato g-ésimo. Nótese que 


vu, Ye 
Damm (un Tk para todo k€ U,, g=1,...,G 
Uy 


Uk 
aa 25, Yh Lk para todo k € Uy, G=1,...,G 
2s, Yh 


Nótese que las expresiones correspondientes al resultado anterior son equivalentes 


a las del resultado 9.4.5 del estimador de razón separada bajo un diseño aleatorio 
estratificado. 


Marco y Lucy 


Retomando la población de empresas pertenecientes al sector industrial, suponga 
que se desea estimar el total de las características de interés Ingreso y Número de 
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Empleados mediante un estimador de post-estratificación que obedezca al modelo 
dado por la expresión (9.6.43), en donde las características de interés están relacio- 
nadas con una variable que es constante y que supone el mismo comportamiento 
estructural a lo largo de toda la población. Suponga que se selecciona una muestra 
aleatoria simple de tamaño n = 400. 


data (Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 

n <- 400 

sam <- sample(N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 


VMVVWvVOyvovVv Voy 


Para computar el estimador del total de las características de interés se define la 
matriz de información auxiliar, que en este caso particular corresponde a la matriz 
de variables «<Dummy> en donde cada columna está multiplicada por el vector de 
valores de la característica de información auxiliar Impuestos; es decir, una matriz 
de ceros, si la empresa no corresponde al subgrupo poblacional o valores en los 
reales si la empresa sí pertenece a tal subgrupo. Se utiliza la función GREG.SI 
del paquete TeachingSampling definiendo correctamente los parámetros según el 
modelo dado por (9.6.43) 


> D <- Domains (Level) 
> x <- DxrTaxes 
> estima <- data.frame(Income, Employees) 
> pik <- rep(n/N,n) 
> tx <- c(6251,16293,6110) 
> b <- E.Betalestima,x,pik,ck=1,b0=FALSE) 
> GREG.SI(N,n,estima,x,tx, b, bO=FALSE) 
Income Employees 
Total estimado 1.038163e+06 1.495162e+05 
Varianza 1.527426e+08 1.249836e+07 


coeficiente de variación 1.190460e+00 2.364494e+00 


El siguiente código muestra que la propiedad de calibración se mantiene para este 
modelo. Por supuesto que la multiplicación de los valores observados de cada una 
de las características de interés con los pesos de calibración da como resultado la 
misma estimación que al utilizar la función GREG.STI. 


> u<-Wk(x,tx,pik,ck=1,b0=FALSE) 
> sum(x[,1]*w) 

[1] 6251 

> sum(x[,2]*w) 

[1] 16293 

> sum(x[,3]*w) 

[1] 6110 


A continuación se muestra la tabla de resultados que indica que asumiendo este 
modelo se gana mucha más precisión que en el caso en donde e asume un modelo 
simple con particiones de subgrupos. 
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Tabla 9.5: Modelo de razón post-estratificada: estimación de los totales de las ca- 
racterísticas de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 
Ingreso 1035217 1038163 1.19 0.28 
Empleados 151950 152742 2.36 0.52 


9.7 Múltiples modelos de regresión 


En esta sección se trata de simular el ejemplo de la sección 7.9.1. de Sárndal, 
Swensson é£z Wretman (1992), en donde se han construido cinco estimadores de 
regresión más el estimador de Horvitz-Thompson. Se realizó una simulación de 
Monte Carlo que se llevó a cabo con Nsim = 5000 repeticiones sobre la misma 
población (MU281). Se utilizaron dos variables auxiliares, 1, = CS82 y 12 = 
5582, mientras que la variable e interés fue y = TS Las estrategias de muestreo 
consisten en un diseño aleatorio simple sin reemplazo más el uso de los anteriores 
estimadores. 


En cada corrida de la simulación se tomó una muestra aleatoria simple de tamaño 
n = 100 de N = 281 y se calcularon los siguientes estimadores: 


ta =NIs 9.7.1) 


> U T1k 
bra = ZE 9.7.2 
1 z Yk On ) 


> e T2k 
tra = ==— E 
2 2 Ma 9.7.3) 


brea = tr + Nh, (Tis == T1U) 9.7.4) 
brea = tr + Nbal(Tas e Toy) 9.7.5) 
to =tr+ N(Bi(Z1s = Z1U) + Bolios = Tau )) 9.7.6) 
donde Ñ Ñ 
by = Lali — Ajo ed 9, 9.7.7) 
(Ti EN Tjs) 
y 


B=(Bo,B,,B2) =(x'x) xy 9.7.8) 


Se calcularon las diferentes varianzas descritas en la tabla 7.2. de Sárndal, Swensson 
€ Wretman (1992), para ello se tenían que computar los ex, y los 9xs que para 
cada estimador, siguiendo el orden de las ecuaciones anteriores, estaban dados por 


€k,a = Yk — Ys (9.7.9) 


Ek ral = Yk — e (9.7.10) 
1 


Ck,ra2 = Yk — Lar (9.7.11) 
T2 
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Chyrel =Yr — di 014 (9.7.12) 
Ek re2 = Yk — bomar (9.7.13) 
Chr =Yn — Xu B (9.7.14) 
y los gs están dados por 

Iker = NA (9.7.15) 
9k,ral — cat (9.7.16) 

Tis 
a (9.7.17) 

T2s 
Ik,rel = l1+n (tro Dis) Cera — 219) ) (9.7.18) 

2. (01h — D15)” 
ba a (T2k — Tas) ) 

re2 — 1+ Ss E 9.7.19 
Ir =1+n(%u RX) Xx (9.7.20) 


Para cada simulación se calculó el promedio de los intervalos de confianza en donde 
estaba ty. La simulación fue programada en el paquete estadístico R. Los resultados 
de la simulación se presentan a continuación. 


Tabla 9.6: Resultados de la simulación de Monte Carlo para el ejercicio propuesto 
en Sárndal, Swensson Es Wretman (1992). 


Est 1 Ss? V, ECRy Veim  ECRsim AV 
tn 5.307 0.056 0.051 92.68 0.050 91.80 0.051 
trar 5.313 0.122 0.120 93.46 0.120 93.56 0.121 
traz 5.315 0.142 0.140 93.98 0.141 94.06 0.141 
bre 5.309 0.120 0.141 94.88 0.140 94.78 0.136 
bres 5.303 0.123 0.361 99.16 0.359 99.06 0.349 


tp 5.307 0.056 0.051 92.68 0.050 91.80 0.051 


Nótese que la tabla 9.6. da los resultados de la simulación. Ésta refleja en la primera 
columna el nombre del estimador; en la segunda y en la tercera columna se da el 
promedio y la varianza para las 5000 repeticiones; la cuarta y quinta columna 
indican el promedio de las estimaciones de la varianza utilizando la expresión 
(9.2.39) y la tasas de cobertura en todas las 5000 simulaciones para los intervalos 
de confianza inducidos por esta varianza; por último, las columnas sexta y séptima 
representan el promedio de las estimaciones de la varianza utilizando la expresión 
(9.2.30) y la tasas de cobertura en cada una de las 5000 simulaciones para los 
intervalos de confianza inducidos por esta varianza. 


A continuación se presenta el programa de simulación que entrega los resultados 
para la última fila de la tabla. Para obtenerlo, se necesito crear dos funciones que 
se explican a continuación. Nótese que para obtener los resultados de las otras 
filas, se be modificar el código de acuerdo a las especificaciones particulares de 
cada caso. 
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library (sampling) 

data(MU284) 

MU281 <- MU284[MU284$RMT85 <= 3000,] 
attach(MU281) 


VWVWvVYVv 


Fija una semilla para obtener los mismos resultados 
set.seed(7654321) 

tTamaño de la simulación de Monte Carlo 

Nsim<-5000 


Y YA MA 


Función que calcula las estimaciones 

r <- function(Y,X1,X2,N,n)4 

ty <- sum(Y) 

sam <- sample(N,n) 

y <- Y[sam] 

x1 <- X1[sam] 

x2 <- X2[sam] 

X <- cbind(1,X1,X2) 

x <- cbind(1,x1,x2) 

beta <-solve(t(x)%*%x, t(x)%*%y) 

betal <- beta[2] 

beta2 <- beta[3] 

Beta <- solve(t(X)%*%X, t(X0%*2Y) 

tiCalcula el estimador de Horvitz-Thompson 

tHT <- N*mean(y) 

ttCalcula el estimador de regresión múltiple 

tr <- tHT+N*((beta1)*(mean(X1)-mean(x1))+(beta2)* (mean (X2) -mean(x2))) 
er <- y - x/*/beta 

Er <- Y - X/*/Beta 

ttCalcula de los pesos gk 

gr <- 1+n*(colMeans(X)-colMeans (x) )*%solve (t (x) %+*%x)%*%t (x) 
gr <- as.vector(gr) 

tfCalcula la varianza del estimador con los gk 

Vgr <- k*sum(gr”2*er”2) 

Crgr=0 

LBgr <- tr-1.96*sqrt(Vgr) 

UBgr <- tr+1.96x*sqrt(Vgr) 

ttCalcula la cobertura del estimador de regresión múltiple 
if(ty>=LBgr € ty<=UBgr) Crgr=100 

tfCalcula la varianza del estimador sincon los gk 

Vsr <- k*sum(er”2) 

Crsr=0 

LBsr <- tr-1.96*sqrt(Vsr);UBsr <- tr+1.96*sqrt(Vsr) 
ttCalcula la cobertura del estimador de regresión múltiple 
if(ty>=LBsr € ty<=UBsr) Crsr=100 

AVr <- K*sum(Er”2) 

todo<-c(tr, Vgr, Crgr, Vsr, Crsr, AVr) 

return(todo) 


, 


HH +++ +++ ++ ++ +++++++++++++++++++¿++++++vov 


Y <- RMT85/10000 

X1 <- CS82 

X2 <- SS82 

N <- 281 

n <- 100 

k <- (N7"2)*(1-(n/N))/(n72-n) 

K <- (N72)*(1-(n/N))/(n*(N-1)) 


AAN CANE YY 


RES <- matrix(0,Nsim,6) 
for(j in 1:Nsim)4f 

RES[3,] <- r(Y,X1,X2,N,n) 
, 


++4voy 
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VS 


VWVvVvVvvov 


tbar <- mean(RES[,1]) 
tvar <- var(RES[,1]) 
vg <- mean(RES[,2]) 

ECRg <- mean(RES[,3]) 


im <- mean(RES[,4]) 


ECRs <- mean(RES[,5]) 
AV <- mean(RES[,6]) 


> c(tbar,tvar,vg,ECRg,vsim,ECRs,AV) 
[1] 5.307 0.056 0.051 92.680 0.050 91.800 0.051 


9.8 Ejercicios 


9.1 
9.2 


9.3 


9.4 


9.5 


Realice el ejercicio lexicográfico del Ejemplo 9.2.1. 
Realice la demostración del resultado 9.4.4. 


Demuestre que la estimación de la varianza del estimador de razón bajo mues- 
treo aleatorio simple se puede expresa como: 


Es z N? O — Buy) 
Varmasltyra) = n (1 a) n-—1 
con B = NY. Yu / » O, Yyr- Luego, demuestre que esta expresión puede ser escrita 
como 


dE (1 —) (S2 + B?82 —2882,) 


Varmas Mira) = N LYs 


Si se utiliza un diseño de muestreo aleatorio simple con un estimador de post- 
estratificación para el total poblacional, 


(a) Demuestre que Ey = €, =0. 


(b) Proponga una expresión para estimar la varianza de los estimadores del 
total en cada post-estrato. 


Mediante fuentes externas, se sabe que en la población del ejercicio 8.9 hay 
24796 automoviles y 4968 efectivos militares. Cada municipio se categoriza 
(CAT) en urbano (CAT=1) o rural (CAT=0) y existen 22 municipios per- 
tenecientes a la categoría urbana y los restantes 27 pertenecen a la categoría 
rural. En los municipios urbanos existen en total 11132 vehículos y en los 
municipios rurales hay 13664 vehículos. 


(a) Estime el estimador del total de habitantes usando un modelo de media 
común de HAB contra VEH. Estime la varianza y calcule el coeficiente 
de variación. 


(b) Estime el estimador del total de habitantes usando un modelo de razón de 
HAB contra VEH. Estime la varianza y calcule el coeficiente de variación. 


(c) Estime el estimador del total de habitantes usando un modelo de regresión 
simple con intercepto de HAB contra MIL. Estime la varianza y calcule 
el coeficiente de variación. 
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9.6 


9.7 


(d) 


(e) 


(£) 


Estime el estimador del total de habitantes usando un modelo de regresión 
múltiple con intercepto de HAB contra MIL y VEH. Suponga que el 
modelo es homoscedástico. Estime la varianza y calcule el coeficiente de 
variación. 

Estime el estimador del total de habitantes usando un modelo de media 


post-estratificada de HAB contra CAT. Estime la varianza y calcule el 
coeficiente de variación. 


Estime el estimador del total de habitantes usando un modelo de razón 
post-estratificada de HAB contra MIL para post-estratos construidos 
mediante CAT. Estime la varianza y calcule el coeficiente de variación. 


Considere una población de 2010 predios agropecuarios. Ásuma que el proceso 
de estratificación fue llevado a cabo de la siguiente manera: el primer estrato 
está conformado por todos aquellos predios que tienen un área cultivada menor 
de 160 hectáreas (Estrato 1); el otro estrato está conformado por aquellos 
predios con un área cultivada mayor de 160 hectáreas (Estrato 2). Para esta 
configuración, en el primer estrato se seleccionó una muestra aleatoria simple 
de n; = 70 y en el segundo estrato se seleccionó una muestra aleatoria simple 
de ni; = 30. Los datos obtenidos se presentan en la siguiente tabla. 


Estrato N, Nh TU Ys Zs EA EN 
1 1580 70 84 19.4 82.5 312 20.5 

2 430 30 241 51.6 244.85 922 73.6 
Total 2010 100 e - - 620 76.1 


Compare las varianzas estimadas y coeficientes de variación estimados para el 
estimador del total poblacional en las siguientes estrategias de muestreo: 


(a 
(b 
lc 
(d 


) 
) 
) 
) 
(e) 


Muestreo aleatorio simple con el estimador de Horvitz-Thompson 
Muestreo aleatorio simple con el estimador de razón 

Muestreo aleatorio estratificado con el estimador de Horvitz-Thompson 
Muestreo aleatorio estratificado con el estimador de razón separada 


Muestreo aleatorio estratificado con el estimador de razón combinada 


Sustente o refute las siguientes afirmaciones 


(a) 


En la determinación de un estimador de regresión general de regresión, 
si en lugar de los verdaderos totales de las características de información 
auxiliar, se dispone de estimaciones gruesas dadas por fuentes administra- 
tivas, el estimador general de regresión será de varianza muy alta. 


En la medida que el tamaño de muestra aumenta, el sesgo del estimador 
general de regresión decrece. 


En la medida que el tamaño de muestra aumenta, la varianza del estimador 
general de regresión decrece. 


Al momento de decidir entre un diseño estratificado o un estimador de 
post-estratificación, el carácter multipropósito de los estudios induce a 
preferir el diseño estratificado. 
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(e) 


Si el intercepto es importante en la descripción de la nube de puntos, 
el utilizar un estimador de regresión que no contemple la presencia del 
intercepto incrementa la varianza y el sesgo de la estrategia. 


Al planear un diseño estratificado y utilizar el estimador general de regre- 
sión, se debe buscar que los estratos se construyan con base en la similitud 
de valores de los residuales del ajuste de regresión. 


La magnitud de la varianza del estimador general de regresión siempre 
depende de la bondad del ajuste entre la característica de interés y las 
características de información auxiliar. 


Capítulo 10 


Estimadores de calibración 


La calibración [como proceso] se ha establecido como un importante instru- 
mento metodológico en la producción de grandes masas de estadísticas. La 
mayoría de agencias estadísticas han desarrollado software especialmente 
diseñado para calcular las ponderaciones resultantes, usualmente calibra- 
das a la información auxiliar disponible en registros administrativos y otras 
fuentes precisas. 


Carl-Erik Sárndal (2008) 


El proceso de calibración es el tema principal de los más recientes artículos pu- 
blicados acerca de estimación en poblaciones finitas y muestreo. Este fenómeno se 
presenta debido a que la calibración provee una forma sistemática para la incor- 
poración de la información auxiliar en la etapa de estimación en una encuesta. Un 
estimador de calibración es aquel estimador lineal que tiene la agradable propiedad 
de la representatividad bajo cualquier diseño de muestreo; aunque el término cali- 
bración es nuevo, hay autores que coinciden en afirmar que han usado calibración 
desde mucho tiempo atrás, antes de conocer este proceso con éste nombre. 


Como Sárndal (2007) afirma, el ítem más importante en la calibración, como pro- 
ceso sistemático de estimación, es la existencia de información auxiliar. Si no hay 
información auxiliar no hay nada a lo que se pueda calibrar, y por tanto no habrán 
estimadores de calibración que aplicar. Como se verá a lo largo del capítulo, los 
estimadores generales de regresión pueden arrojar los mismos resultados que los 
estimadores de calibración; sin embargo, el espíritu y la esencia de su aplicación 
tienen direcciones marcadamente diferentes. 


¿Pero qué es un estimador de calibración? ¿cuál es su esencia?. A continuación 
una breve descripción de este método: 


1. Suponga que se tiene acceso a un vector de información auxiliar, Xp = 
(L1x, 12%, ---, Upr), de p variables auxiliares y conocido para los individuos 
seleccionados en la muestra. 


2. Además, por registros administrativos u otras fuentes de confianza, se tiene 
el conocimiento del total del vector de información auxiliar tx = ) keu Xk: 
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3. El propósito del estudio es estimar el total de la característica de interés 
usando la información dada por Xx kE€S. 


4. Aunque el estimador de Horvitz-Thompson es insesgado, se requiere que las 
estimaciones cumplan con la siguiente restricción dada por 


y WXp = tx 


kes 


y conocida como ecuación de calibración. 


5. La idea consiste en buscar estos pesos wz tan cercanos como sea posible al 
inverso de la probabilidad de inclusión del k-ésimo elemento dy = 1/rx 


Aunque el concepto de calibración es nuevo en la teoría de muestreo, la esencia del 
método y el espíritu práctico de obtener estimaciones que ajusten exactamente con 
totales conocidos no es nuevo. De hecho, este método se ha utilizado, y algunos 
investigadores lo están utilizando, sin saber que se llama calibración. Este fue el 
caso de Deming éz Stephan (1940) quienes abordaron este tema utilizando tablas 
de contingencia con estimaciones internas y totales marginales conocidos. Ellos 
fueron los pioneros del proceso iterativo de ajuste proporcional o IPFP, por 
sus siglas en inglés. 


10.1 IPFP 


Suponga que existen dos variables cualitativas que dividen la poblaciones en sub- 
grupos poblacionales. Por un lado una variable permite dividir la población en H 
subgrupos poblacionales, U;¡.,...,Up.,...,Upy., y por otro lado una variable que 
permite dividir la población en G subgrupos poblacionales, U.¡,...,U.y,...,U.q. 
Como resultado la población se particiona en H x G subgrupos poblacionales como 
lo muestra la siguiente tabla. 


Tabla 10.1: Distribución de la población en la tabla de contingencia. 


Un Ur -"* Usa [| U,. 
Uni *= Ung “":= Una | Un 
Umi * Uy **: Una |Un. 
Un e DE Da U 


Los tamaños de los subgrupos poblacionales se definen así: Nypy = FU»ng, Nh. = 
FU»., N.¿ = FFU.¿. Nótese que se tiene que 


H G 
NS MN (10.1.1) 


Además de esto, los totales de las celdas de la tabla de contingencia siguen la 
siguiente relación: 
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Tabla 10.2: Distribución de los tamaños poblacionales en la tabla de contingencia. 


NE MN A ME IM 
Narco Nag +: Na | Nh. 
Nar. 6 Nigga e Nue Nas: 
Mi Na NN 


Después de la recolección y observación de los datos en la encuesta, se tiene la 
estimación definitiva de los totales de cada una de las celdas internas y de las 
celdas marginales. Así, Ñha corresponde a la estimación de N;g, Ñ;,. corresponde 
a la estimación de Ny., N.¿ corresponde a la estimación de N., y por último, Ñ 
corresponde a la estimación de N. De está manera, es posible utilizar el estimador 
de Horvitz-T'hompson, definiendo 


Ny = y Zhk N». == y Zgk- 


keU keU 
Donde, 
1 sike€U»,. 1 sikeU, 
Zhk = Zgk = 
] O en otro caso is O en otro caso 


Al utilizar el estimador de Horvitz-Thompson se garantiza el insesgamiento y se 
tiene la relación dada por la siguiente tabla 


Tabla 10.3: Distribución de los tamaños poblacionales estimados en la tabla de 
contingencia. 


Ni Jona Ni e Nia Ni. 
Nas Ñho Ñha Ñ» 
Meyi Ñxo sr Ne Nes 
Ni Aoi Ny ad Na N 


Hasta el momento, se ha cumplido con el objetivo de estimar las celdas internas 
y las marginales de la tabla de contingencia. Sin embargo, suponga que, debido 
a registros administrativos u otras fuentes de confianza, es posible tener acceso a 
los totales de las celdas marginales tanto por columnas como por filas. Es decir, 
suponga que N.y, g=1,...,G y Nh., 9 =1,...,G son conocidos. 


Bajo el anterior supuesto, es posible construir un algoritmo que ajuste las estima- 
ciones de las celdas internas y que tenga la agradable propiedad que, finalizado 
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el algoritmo, al sumar por filas y columnas, las estimaciones correspondan a los 
totales conocidos de las celdas marginales. Este método de estimación basado en 
un algoritmo muy simple se conoce como proceso iterativo de ajuste propor- 
cional o IPFP, por sus siglas en inglés, y fue propuesto por Deming é Stephan 
(1940). 


10.1.1 Algoritmo 


Aunque simple e intuitivo, el siguiente algoritmo es muy potente y tiene la buena 
propiedad de converger muy rápidamente si la tabla de contingencia no tiene valo- 
res nulos en sus celdas internas y si los totales marginales conocidos tienen sentido 
con la puesta en marcha de la encuesta. 


1. Inicializar con 


Mio =Nag 9=1,....,G,h=1...,H 
2. Para t= 1,2 yin 
(21) (21-2) N». o 
Na = No o) =D h= Litas E 
¿Dn hg 
(2) preto) Ny _ E 
Na = Ni y AD g=1,...,G,h=1,...,H 
No 


A simple vista, un defecto significativo de este método es que no tiene en cuenta 
el diseño de muestreo del cual provienen los datos para calibrar con respecto a la 
información auxiliar conocida. Sin embargo, como se verá en las próximas seccio- 
nes, Deville €: Sárndal (1992) y Deville, Sárndal €: Sautory (1993) probaron que 
efectivamente, el proceso iterativo de ajuste proporcional se podía tratar como un 
caso especial de los estimadores de calibración bajo el espíritu del numeral 5 de 
la introducción. A los estimadores de calibración que surgen bajo este marco de 
referencia se les conoce con el nombre de estimadores generalizados de raking. 


10.1.2 Marco y Lucy 


Volviendo con nuestra población de empresas del sector industrial, se sabe que 
las variables cualitativas Nivel y SPAM conforman una partición de la población. 
Por un lado, la variable Nivel, divide a la población en tres subgrupos de acuerdo 
a características de la empresa, a saber: Grande, Mediana y Pequeña. Por otro 
lado, la variable SPAM, divide a la población en dos subgrupos poblacionales, 
de acuerdo a sus estrategias publicitarias, así: SPAM.SI y SPAM.NO. En total la 
población se divide en 2 x 3 = 6 subgrupos poblacionales. 


Ahora, suponga que se ha planeado un diseño de muestreo aleatorio simple con 
un tamaño de muestra n = 400 y que se desea estimar el total de empresas por 
grupo industrial, el total de empresas que usan y no usan SPAM y su respectiva 
anidación interna en la tabla de contingencias, como lo muestra la siguiente tabla. 
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Tabla 10.4: Tabla de contingencia para SPAM. 


SPAM.NO  SPAM.SI | Total 
Grande Ni Ni Ni. 
Mediana Nai Na N». 
Pequeña, N3i N3a Na. 
Total Na ÑN. N 


En primer lugar, con ayuda de la función S.SI perteneciente al paquete 
TeachingSampling, se debe seleccionar una muestra probabilística de tamaño n = 
400. 


data(Lucy) 

attach(Lucy) 

N <- dim(Lucy) [1] 

n <- 400 

sam <- S.SI(N,n) 

muestra <- Lucy[sam,]; attach(muestra) 


VWVVWVvOyvoyv oy 


Una vez que se ha observado y recolectado la información de cada una de las 
empresas seleccionadas en la muestra, se utiliza la función Domains del paquete 
TeachingSampling para obtener dos matrices, SPAM.no y SPAM. si, que indican 
la pertenencia o no de cada empresa seleccionada en la muestra a cada uno de los 
tres niveles del sector industrial. 


> estima  <- data.frame(Domains(Level)) 
> Dominios <- data.frame(Domains (SPAM) ) 
> SPAM.no <- Dominios[,1]x*estima 

> SPAM.si <- Dominios[,2]x*estima 


A continuación se muestran los cinco primeros elementos de las dos matrices crea- 
das. 


> SPAM.no | > SPAM.si 

Big Medium Small | Big Medium Small 
1 0 0 1 | 1 0 0 0 
2 0 0 0 | 2 0 0 1 
3 0 0 0 | 3 0 0 1 
4 0 0 1 | 4 0 0 0 
5 0 0 0 | 5 0 0 1 

| 


Para estimar los totales marginales correspondientes a las variables Level y SPAM, 
utilizamos la función E.SI del paquete TeachingSampling, la cual se aplica sobre 
los objetos estima y dominios, creados en el paso anterior. 


> E.SI(N,n,estima) 
Big Medium Small 
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Total estimado 


107.82000 676.870000 1611.310000 
515.09857 2429.488304 2639.842691 


3.188673 


yes 


Varianza 
coeficiente de variación 21.04970 7.282025 
> E.SI(N,n, Dominios) 

no 
Total estimado 868 .550000 1527 .450000 
Varianza 2769.890846 2769.890846 
coeficiente de variación 6.059496 


3.445596 


Para estimar las celdas internas de la tabla de contingencia, utilizamos la función 
E.SI del paquete TeachingSampling, la cual se aplica sobre las matrices SPAM.no 


y SPAM.si, creadas anteriormente. 


> E.SI(N,n,SPAM.no) 


Big Medium 
Total estimado 35.94000 245.59000 
Varianza 177.09322 1102.63755 
coeficiente de variación 37.02737 13.52090 
> E.SI(N,n,SPAM.si) 

Big Medium 
Total estimado 71.88000 
Varianza 348.79275 


coeficiente de variación 25.98218 


Small 

587 .020000 
2217.111277 
8.021228 


Small 


431.280000 1024.29000 
1769.134340 2933.49981 
9.752615 


5.28774 


Tabla 10.5: Estimación de Horvitz- Thompson para la tabla de contingencia de 


SPAM. 
SPAM.NO SPAM.SI | Total 
Grande 35.94 11.88 107.82 
Mediana 245.59 431.28 676.87 
Pequeña 587.02 1024.29 | 1611.31 
Total 868.55 1527.45 2396 


Por tanto, la estimación de Horvitz-Thompson bajo muestreo aleatorio simple está 
dada por la tabla 10.5. Ahora, suponga que, debido a registros administrativos u 
otras fuentes de confianza, es posible conocer el valor de los totales marginales para 
Level y SPAM; dadas por 83 empresas grandes, 737 empresas medianas y 1576 
empresas pequeñas, para la variable Level y por 937 empresas que no utilizan 
SPAM y 1459 empresas que sí utilizan SPAM, para la variable SPAM. Es posible, 
entonces, utilizar el procedimiento iterativo de ajuste proporcional para calibrar 
las estimaciones internas de la tabla de contingencia para que ajusten exactamente 
a los valores poblacionales conocidos. Lo primero que se debe hacer, se debe crear 


la tabla de contingencia en R. 


> Tab <- matrix(c(35.94,245.59,587.02,71.88,431.28,1024.29),3,2) 
> rownames(Tab) <- c("Grande", "Mediana" ,"Pequena") 


> colnames(Tab) <- c("SPAM.NO", "SPAM.SI") 
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Una vez creada la tabla de contingencias, procedemos a implementar el algoritmo 
mediante la función IPFP del paquete TeachingSampling. Esta función consta 
de cuatro argumentos. El primer argumento es Tab, concerniente a la tabla de 
contingencias resultante de la estimación mediante el diseño probabilístico. El 
segundo argumento es Col y es un vector que contiene los totales marginales 
(poblacionales y conocidos) de las columnas de la tabla de contingencia. El tercer 
argumento es Row y es un vector que contiene los totales marginales (poblacionales 
y conocidos) de las filas de la tabla de contingencia. Por último tol, que por defecto 
es equivalente a 0.00001, corresponde a la tolerancia del algoritmo. La función IPFP 
arroja como resultado una tabla de contingencias calibrada según los argumentos 
Col y Tol. Para este ejemplo particular, se tiene la siguiente salida: 


> Col <- c(937,1459) 
> Row <- c(83,737,1576) > IPFP(Tab,Col,Row,tol=0.00001) 


SPAM.NO SPAM.SI Row.est 
Grande 29.93189 53.06811 83 
Mediana 288.25691 448.74309 737 
Pequena 618.81120 957.18880 1576 
Col.est 937.00000 1459.00000 2396 


A continuación se encuentran las tablas comparativas de las estimaciones calibra- 
das mediante el proceso iterativo de ajuste proporcional y la información corres- 
pondiente a los totales poblacionales, respectivamente. 


Tabla 10.6: Distribución poblacional (no conocida) para la tabla de contingencia 
de SPAM. 


SPAM.NO  SPAM.SI | Total 
Grande 29.93 53.06 83 
Mediana 288.25 448.74 137 
Pequeña 618.81 957.18 1576 
Total 937 1459 2396 


Tabla 10.7: Estimación IPFP de calibración para la 
SPAM. 


tabla de contingencia de 


SPAM.NO SPAM.SI | Total 
Grande 26 57 83 
Mediana 291 446 737 
Pequeña 620 956 1576 
Total 937 1459 2396 
Nótese que la diferencia relativa es muy pequeña y que las estimaciones se acercan 


a la verdad. En estos términos relativos, esta estimación resulta mejor que la 
inducida por el estimador de Horvitz-T'hompson. 
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10.2 Fundamentos teóricos 


Como se estableció en la anterior sección, los estadísticos han intentado utilizar la 
incorporación de información auxiliar para mejorar las estimaciones de la encues- 
ta. Es así como el estimador de regresión en todas sus posibles formas, requiere 
el conocimiento del total de un vector de variables auxiliares. Como Deville é 
Sárndal (1992) lo explican, los estimadores de calibración son una familia o clase 
de estimadores que tienen una forma muy atractiva y que se caracteriza por usar 
pesos calibrados, los cuales son tan cercanos como sea posible a los pesos originales 
o inversos de la probabilidad de inclusión del elemento seleccionado en la muestra 
y además estos estimadores de calibración respetan un conjunto de restricciones, 
las ecuaciones de calibración. 


Considere una población finita U =(1,...,k,..., NJ, de la cual se ha seleccionado 
una muestra probabilística s (s € U) inducida por un diseño de muestreo p(-). 
Luego, p(s) es la probabilidad de que la muestra s haya sido seleccionada. Se asume 
que las probabilidades de inclusión de primer y segundo orden son estrictamente 
positivas. 


Sea yx el valor de la característica de interés para el k-ésimo individuo de la 
población, el cual también tiene asociado un vector de valores auxiliares dado por 
Xp = (%14, 82%) ---, Upr). Nótese que yx y Xy se observan y se conocen para todos 
los elementos en la muestra. Además, se asume que se conoce, mediante registros 
administrativos u otras fuentes de confianza, el total poblacional del vector de 
información auxiliar tx = D hey Xk- 


Como en la mayoría de situaciones que se presentan en este libro, el objetivo es 
estimar el total poblacional de la característica de interés, t,. Sin embargo, el 
estimador de ty debe ser un estimador lineal de la forma 


is(y) = Y wr4r, (10.2.1) 
kes 


Nótese que el estimador de Horvitz-Thompson toma la anterior forma pues 


tur = Y a =D diYn, (10.2.2) 


kES kEeS 


Además de la linealidad, la familia de estimadores de calibración debe inducir una 
estrategia de muestreo representativa para cualquier diseño de muestreo p(+). Es 
decir, se deben construir unos nuevos pesos wz, que sean tan cercanos como sea 
posible a dy, = 1/j considerando alguna métrica y, que además cumplan con las 
ecuaciones de calibración 


S wx; =tx. (10.2.3) 
kes 


Nótese que los pesos wj dependen de S. Por ejemplo bajo el diseño MAS, el 
estimador de razón se puede escribir como 
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E o tr ÑN Zu 
t = tur = = — — = a 
yr = Ían p ida 2 Uns 


Dado que existe una variedad de estimadores que cumplen la restricción (10.2.3), 
se deben encontrar unos pesos w que tengan las siguientes propiedades (Estevao, 
Sárndal € Sautory 2000) 


1. Consistencia: un sistema de pesos o ponderaciones que satisfaga (10.2.3) es 
atractivo, porque reproduce exactamente el total poblacional conocido para 
cada variable auxiliar. 


2. Cercanía a los pesos básicos: los pesos básicos dy = 1/1 tienen la atrac- 
tiva propiedad de inducir estimaciones insesgadas con respecto al diseño de 
muestreo utilizado. Se quiere que cualquier desviación de estos pesos sea pe- 
queña para preservar esta propiedad, al menos aproximadamente o asintóti- 
camente. 


3. Control sobre los totales de las variables auxiliares: lo que dice la 
intuición es que entre más variables auxiliares sean usadas en el proceso 
de calibración, entonces mejor la estimación. Este argumento intuitivo es 
soportado por la teoría; de esta manera, Estevao, Sárndal £z Sautory (2000, 
sec. 6.) demuestran que la varianza de un estimador de calibración decrece 
mientras más variables auxiliares sean tenidas en cuenta en la calibración. 


10.3 Construcción 


Para construir estos nuevos pesos 0, se debe minimizar una pseudo- distancid] 
G(w/dy) entre wz y dx en toda la muestra. Éste se puede tomar como un problema 
de optimización de la distancia en toda la muestra dada por 


y dy HtnLda) (10.3.1) 


sujeto a la restricción (10.2.3). Donde, qx (k € S) forman un conjunto de pondera- 
ciones conocidas y estrictamente positivos. Acerca de la pseudo-distancia G(wy /dy), 
se supone que 


lUna función de distancia D(x1,12) debe cumplir con las siguientes propiedades: i) ser estric- 
tamente positiva (no negativa), decir que D(x1,w2) > 0; 1i) D(x1,x2) = 0 únicamente cuando 
11 = 22; 1) ser simétrica, es decir D(x1,12) = D(x2, 21); cumplir con la desigualdad triángular, 
es decir D(x1,123) < D(x1,12)+D(x2, 23). La función G(wz /d;) es una pseudo-distancia puesto 
que no necesariamente debe cumplir con la propiedad de simetría. 
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e Debe ser estrictamente no negativa (para que tenga sentido como una función 
de distancia). 


e Debe ser estrictamente convexd?] (para que cualquier mínimo local sea un 
mínimo absoluto). 


e G(1) =0, esto es que la distancia entre pesos iguales es cero. 


e G'(1) = 0, cuando los pesos son iguales la función debe tener un punto 
crítico. 


e G”(1) = 1, ese punto crítico debe corresponder al minimizador. 
En resumen, la técnica de calibración induce un nuevo conjunto de pesos wz que 


surge de la minimización de una pseudo-distancia G(-) en la muestra que está 
sujeta a las ecuaciones de calibración. Es decir, que los nuevos pesos deben ser 


tales que 
NT pxp = 2 Xp = tx (10.3.2) 
kes 


Para resolver este problema de optimización, recurrimos a la técnica de los multi- 
plicadores de Lagrange. De esta manera, la ecuación de Lagrange estará dada por 
la siguiente expresión 


dx) 
L(wx, ...) Wp, Á =D> dy ca 4) == x (E WEXk — 6x) (10.3.3) 


kesS 


Derivando la ecuación de Lagrange con respecto a wz e igualando a cero, se tiene 


OL - dy. g(wj/dx) 
OWx Uk Ax 


NX =0 


Donde g(w) = ae) y por tanto se llega a que 


g(wx/dx) = qx A Xx 


En este paso es necesario definir una función F(-), tal que F(-) = g7*(-), es decir 
F(g(w)) =w, por lo tanto 


F(g(w,/d;)) = F(q A X1) 


Lo que nos guía al valor de los nuevos pesos 


wy = di F(qrAxy.) (10.3.4) 


El vector Á se obtiene al resolver el siguiente sistema de ecuaciones 


S diF(NAXr) xy = €, (10.3.5) 
A 
Wk 


2Una función G(x) es estrictamente convexa sí y sólo sí Gl(ax1 + (1— aJx2) < aG(21)+ (1 
ajG(x2) para todo a € (0,1) y todo x1 4 x=2. Por otro lado, si la segunda derivada de G es 
positiva en todo su dominio, entonces G(x) es convexa. 
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10.3.1 Distancias G(-), g(-) y F(-) 


En general, hay varios tipos de distancias que pueden utilizarse en la construcción 
de un estimador de calibración. Sin embargo, Deville dz Sárndal (1992) demuestran 
que todas ellas guían asintóticamente al mismo estimador. Las pseudo-distancias 
más utilizadas están dadas en tabla 10.8%. Dependiendo de la escogencia de cada 
distancia, se obtendrán distintos estimadores de calibración. También es posible 
fijar dos constantes L y U y restringir el rango de los pesos resultantes wz al 
intervalo (L, U). Este método se utiliza para evadir los pesos extremos o negativos, 
que se pueden eliminar con una buena escogencia de £ y U. 


En resumen, el proceso para obtener un estimador de calibración es el siguiente: 


1. Definir una distancia G(-) y observar los datos Yx y Xp. 


2. Resolver (10.3.4) para el vector A. En algunos casos esta solución requiere 
de procedimientos iterativos. 


3. Usar Á para obtener un estimador del total poblacional de la característica 
de interés dado por 


ad _. y WKEYk = y di F (q A Xx)Yk (10.3.6) 
kes kes 


Deville € Sárndal (1992) asegura que el estimador £,.ca¡ arrojará estimaciones 
cercanas al total poblacional desconocido de la característica de interés si existe 
una fuerte relación entre y y x. De hecho, si y estuviera perfectamente explicado 
por x, la varianza del estimador cal sería nula para cada posible muestra. 


Tabla 10.8: Ejemplos de pseudo-distancias para el proceso de calibración. 


Distancia Gx) g(x) Flu) 
Ji cuadrado 3 (a — 1) x—1 l+u 
Entropía xin(1)-<+1 In(x) exp(u) 
Hellingster AYT-1? 2 (1 ES 2) (1+2)2 
Entropía inversa In(2)+%-1 1-Í (1+u)* 
Ji cuadrado inversa > E 3 (1 a (1 +24) 1/2 


10.4 Algunos casos particulares 


Deville € Sárndal (1992) examinaron las propiedades estadísticas de Eyed bajo 
una serie de pseudo-distancias G(). En esta sección se revisarán algunos casos 
particulares que arrojan estimadores de calibración, algunos conocidos y otros 
nuevos. 
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10.4.1 Método lineal: distancia Ji cuadrado 


Este método, quizás el más usado y uno de los más importantes en calibración, 
se obtiene cuando se escoge la utilizaremos la distancia Ji cuadrado que calcula la 
distancia, en toda la muestra, de los nuevos pesos wz a los pesos clásicos di como 


Y duda) E 3 a 


S 


Resultado 10.4.1. Bajo la distancia Ji cuadrado, y suponiendo que las pondera- 
ciones qx = 1/cx, el estimador de calibración toma la forma del estimador general 
de regresión. 


Prueba. De (10.3.3), y utilizando el hecho de que, para este pseudo-distancia, 
F(u) =1+u, entonces se tiene que 


wr = di F(q AX») 
= dy(1 + qn A Xp) 
= di + dq A Xp 
y reemplazando en la ecuación de calibración (10.3.4) 


NS dix + di IS = (10.4.1) 


Al despejar convenientemente, el multiplicador de Lagrange se resuelve como 


-1 
A = (tx — tur) (E deso) (10.4.2) 
S 


Así, suponiendo que qx = 1/cz, se llega al estimador de calibración para el total 
de la característica de interés, puesto que 


We = de + delo — tun) T7*g4xXz (10.4.3) 


donde T7! está definido en (9.2.13). Entonces, se tiene que 


tasca Wii (10.4.4) 
Ss 
SI A O (10.4.5) 
A Tk E CkTk 


que coincide exactamente con la expresión (9.2.15) que define el estimador general 
de regresión. mn 
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El autor recalca que el estimador general de regresión es un caso particular de la 
familia de estimadores de calibración. Es un error hacer aserciones acerca de los 
estimadores de calibración basados solamente en la forma funcional del estimador 
general de regresión (GREG). Aunque es cierto que una gran mayoría de artículos 
están basados bajo el espíritu del estimador general de regresión, se debe recalcar 
que la filosofía de un estimador de calibración, aunque no contradice el uso del 
estimador general de regresión, es bien diferente a la filosofía de éste. 


G(x) FO0 


Figura 10.1: Funciones G(x) y F(u) utilizando la distancia Ji cuadrado. 


Nótese que el estimador general de regresión utiliza un modelo para incorporar 
la información auxiliar en el proceso de estimación, al igual que los estimadores 
de calibración, no todos los casos particulares del estimador general de regresión 
son estimadores de calibración. El espíritu más influyente de los estimadores de 
calibración no es incorporar un modelo al proceso de estimación sino conseguir un 
conjunto de pesos wz. Como Sárndal (2007) lo afirma, el concepto de estimación 
GREG y estimación de calibración reflejan una clara diferencia de pensamiento. La 
gran variedad de posibles modelos generan una amplia familia de estimadores tipo 
GREG. Por otro lado, la escogencia de una distancia en el proceso de calibración 
generan una amplia familia de estimadores de calibración, cuyo caso particular es 
la familia de estimadores GREG lineales. 


Resultado 10.4.2. Bajo la distancia Ji cuadrado, y suponiendo que las pondera- 
ciones q. = 1/11 y que sólo existe una variable de información auxiliar; es decir 
Xi = t, el estimador de calibración toma la forma del estimador de razón. 


Prueba. Bajo las anteriores condiciones, se tiene que 


la 
A == Nu Tk 1 A 1 
Ys dy Tp tar 
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Por tanto 


ta 
Wx =dx(1 + qx A) = de(1 +A) = de (; ) 


,T 


Luego, el estimador de calibración toma la forma siguiente 


que coincide con la forma del estimador de razón dada por (9.4.15). L 


10.4.2 Método de raking: distancia de entropía 


El método de raking utiliza la distancia de entropía como base de construcción del 
estimador de calibración. Esta distancia se define como: 


Gx) = rlog(x) — +1 


Nótese que la distancia, en toda la muestra, de los nuevos pesos wz a los pesos 
clásicos dy como: 


dC (04/d) = Y da (5 ln (5) A 1) 


De (10.3.3), y utilizando el hecho de que, para este pseudo-distancia, F(u) = 
exp(u), entonces se tiene que 


we = di F(quAX1) 
= dy exp(q AX.) 


y reemplazando en la ecuación de calibración (10.3.4) 
Y dy exp(qí A Xp)x), = € (10.4.6) 


El anterior sistema debe ser resuelto para A (que es un vector columna de multi- 
plicadores de Lagrange). Después de que Á sea determinado, se calculan los pesos 
calibrados como w, = dy exp(q, A Xy.) y se obtiene el estimador de calibración para 
el total poblacional de la característica de interés, definido como: 
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bycal = Y Y; = Y > de exp( AX Ys 
S S 


(10.4.7) 


¿Qué interpretación teórico-práctica tiene que algún wz resulte negativo? Un as- 
pecto realmente importante de este método de raking es que induce pesos wz que 


son estrictamente positivos, lo cual no sucede con el método lineal. 


G() F() 


0.2 
1 


0.0 


Figura 10.2: Funciones G(x) y F(u) utilizando la distancia de Entropía. 


Aspectos computacionales para el cálculo de A 


Para calcular el estimador de calibración dado por (10.4.7), es necesario resolver el 
sistema de ecuaciones (10.4.6) para A. En Deville $z Sárndal (1992), se demuestra 
que una solución general pede ser obtenida usando el método iterativo de Newthon- 
Raphson. Nótese que el sistema de ecuaciones de calibración puede ser re-escrito 


como una función ( en términos de A, así: 
HA) = Y dr exp(q A Xx)x; — € 
5 


Nótese que la derivada de esta función con respecto a Á está dada por: 


PA) = 0 = Y dy exp(qr AX) Xx 
S 


para algún vector A. Entonces, de acuerdo con el método de Newton-Raphson, una 
solución estaría dada por la iteración hasta convergencia de la siguiente expresión 


AED AD _ E (A0)] e AD) 


(10.4.8) 
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Nótese que el procedimiento converge cuando la diferencia entre AFD y AU sea 

menor que una tolerancia fijada de antemano. Además, se debe tener en cuenta 
(0) — 

que A” =0. 


Resultado 10.4.3. Bajo el método de Newton-Raphson, la primera iteración del 
algoritmo da como resultado la solución para A cuando se utilizaba la distancia Ji 
cuadrado. Es decir, 


AD = Tb — y] (10.4.9) 
Prueba. 


1010 _ E an SAO) 


—-1 
= Y dy O Y dy exp(xAO)xy, — ta 


Jl 


-1 
y datos SE dxXk c 6 


=== TP ete) 


que coincide con la solución para A dada por la expresión (10.4.2). ] 


Del anterior resultado se tiene que el estimador de calibración en la primera ite- 
ración estaría dado por 


E = Y du explarltx — ber) Tx) yr (10.4.10) 
Ss 


Programación del estimador con R 


En esta sección se dan las ideas básicas para la programación computacional de 
un estimador de calibración basado en el método de raking para el caso en que 
se utiliza una sola variable de información auxiliar. Nótese que en el cálculo del 
vector A, cuya expresión está dada por la ecuación (10.4.8), están involucradas las 
funciones € y $”. La programación computacional de esta técnica de los estimadores 
de calibración puede ser fácilmente implementada en cuatro sencillos pasos. A 
saber: 


1. Programar la función 
2. Programar la función y' 


3. Utilizar las anteriores expresiones para realizar el cálculo del vector A 
4. Iterar hasta convergencia 
En la programación de la función f intervienen cuatro objetos computaciona- 


les los cuales son el vector di = (1/m1,...,1/rx,...,1/Tn), el vector A, el vec- 
tor de valores auxiliares para cada elemento incluido en la muestra, dado por 
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Xp = (U1p,U2k,---,Upr) y el vector de totales poblacionales de las variables de 
información auxiliar t,. De esta manera, el siguiente código crea una función que 
permite el cálculo de la función ¿. 


> Fi <- function(dk, 1, x, tx) 

+ e <- matrix(0,n,1) 

+ for(k in 1:n) € 

+ e[k] <- exp(x[kx]+*1) 
+ y 

+ res <- sum(dkx*ex*x)-tx 

+ res 

+) 


Por otra parte, en la programación de la función ¿” intervienen sólo tres objetos 
computacionales que también estuvieron involucrados en la programación de la 
función (. La razón de lo anterior es porque q* es la derivada de fp. Estos elemen- 
tos son dy = (1/71,...,1/Tx,...,1/Tn), Ay Xx = (U15,72k,---, Tpr). Luego, el 
siguiente código crea una función que permite el cálculo de la función d”. 


Fiprima <- function(dk, 1, x)1f 

e <- matrix(0,n,1) 

for(k in 1:n) 
e[k] <- exp(x[kx]+*1) 
3 

res <- sum(dkx*ex*xx*x) 

res 


) 


+++ + +++v 


Simultáneamente, se debe crear una función que calcule el estimador de cali- 
bración. En esta función intervienen cuatro objetos computacionales que son: 
dy = (1/71,...,1/Tp,...,1/Tn), A, Xp = (11, T2k,---, pk) y por último el vec- 
tor de valores de la característica de interés para los elementos de la muestra 
Yk = (Y1, Y2) --->Yn)- 


> Cal <- function(dk, 1, x, y) 

+ w <- matrix(0,n,1) 

+ for(x in 1:n) 4 

+ w[k] <- exp(x[k]x*1) 
+ y 

+ res <- sum(dk*w*y) 

+ res 

+) 


Por supuesto, los anteriores códigos no funcionan por sí solos. Nótese que las 
anteriores funciones tienen al elemento computacional A en común; sin embargo, 
este elemento no existe aún y debe ser calculado con métodos iterativos como el 
de Newton-Raphson. Estas funciones deben ser ensambladas por una función que 
las recoja y que sea capaz de realizar el cálculo final del estimador de calibración. 
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En primer lugar se debe fijar una tolerancia deseada, en este caso la tolerancia está 
dada por 0.000001. Esto quiere decir que el proceso iterativo se detiene cuando 
suceda que [AGD — A(W| < —0.000001. Sin embargo, si esta condición no se 
satisface, entonces el proceso sigue iterándose repetitivamente. Cuando el proceso 
converge, entonces es posible utilizar las funciones que se declararon anteriormente 
y así calcular el valor de la estimación. 


> tol <- 0.000001 

>1<0 

> 1.k <- 4 

> while(abs (1-1.k)>to1)1 

+ 1.k <- 1-Fi(1,xs,sum(xu))/Fiprima(l,xs) 
+ 1 <- 1.k 

+ 3 

> tcal <- Cal(l.k, xs, ys) 


Los anteriores códigos de programación pretenden ser una guía para el estudiante 
y no se declaran como la única alternativa de lógica computacional. 


Nótese, sin embargo, que aunque el método de Raking posee la característica de 
que los pesos no son negativos, como suele suceder cuando se utiliza el método 
lineal, éstos pueden ser muy variables. Para resolver este inconveniente, Deville €z 
Sárndal (1992) proponen los métodos logístico y lineal truncado. Éstas técnicas 
surgen motivadas por el deseo de restringir el rango de variación de los nuevos pesos 
de calibración sin alterar demasiado el estimador de calibración. En la práctica, el 
estadístico desea evadir los pesos extremos; en la siguientes secciones se muestra 
cómo estos pueden ser eliminados. 


10.4.3 Método logístico 


Conocido comúnmente como el método de calibración Logit (L, U). Este método 
fija dos constantes L y U tales que L < 1 < U. De esta forma se define la siguiente 
cantidad 


(U-L) 


AnD 


Luego, se define la siguiente función 


4 [6 D)lg EL + (U 2) le E sil<x<U 
G(x) = (10.4.11) 


00 en otro caso 


La correspondiente función /F" está dada por 


_ L(U-1)+U(1-— L) exp(Au) 
OS U-—1+(1-— £) exp(4u) aaa) 
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(09) Fo) 


Figura 10.3: Funciones G(x) y F(u) utilizando el método logístico con L = 0.4 y 
U = 2.5la distancia de Entropía. 


La anterior función toma valores restringidos al intervalo (L, U') puesto que F(—00o) 
L y F(oo) = U. Por lo tanto los nuevos pesos de calibración están siempre en el 
intervalo [Ldy,, Udy). 


10.4.4 Método truncado lineal 


Para restringir el intervalo de soluciones de los pesos de calibración es posible 
utilizar la misma función lineal pero restringida a dos valores L y U, tales que 
L<1<U. De esta forma, 


Ha—-1)? sil<x<U 
Cla)= (10.4.13) 


00 en otro caso 


De esta manera, la correspondiente función FF, está dada por 
l+u siue[L-1,U-1] 
L ] L-1 
F(u) = o (10.4.14) 


U siu>U-—1 
Así, los nuevos pesos de calibración están siempre en el intervalo [£dy, Udy)]. 


10.5 Calibración y Post-estratificación 


Deville, Sárndal € Sautory (1993) derivaron en primer lugar el estimador de ca- 
libración y luego explicaron el estimador de post-estratificación y el estimador de 
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Figura 10.4: Funciones Gl(x) y F(u) utilizando el método truncado lineal con L = 
0.4 y U =2.5la distancia de Entropía. 


Raking (bajo el algoritmo IPFP) como casos particulares del método de calibración 
bajo distintas distancias. En esta sección se dan las bases estadísticas para la cons- 
trucción de estos estimadores. 


10.5.1 Post-estratificación 


Un caso especial muy importante de los estimadores de calibración corresponde al 
estimador de post-estratificación completa] En este caso el número de variables de 
información auxiliar es igual al número de post-estratos que particionan la pobla- 
ción. Este proceso supone la partición en G grupos de la población finita. Así que 


U = (U;,,Uz,...,Ug). Se asume que la característica de interés está relacionada 
con G vectores o variables dummy que toman el valor uno si el elemento pertenece 
al subgrupo U, (y = 1,...,G) o cero si el elemento no pertenece al grupo. Así que 
p=G, xx =dx=(0,0,...,1,...,0,0) y qx = 1 para todo k € U. 
AAA 
G grupos 


Bajo la anterior formulación tenemos que el vector A toma la siguiente forma 


A A (10.5.1) 


y cada entrada del vector de información auxiliar para el k-ésimo elemento está 
dada por 


1 sikeU, 


O en otro caso 


3El término post-estratificación completa se usa cuando los totales internos de la tabla de 
contingencia son conocidos y se usan para el proceso de calibración. 
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Nótese que 
t= Y A Mi Nic No), (10.5.3) 
donde N, corresponde al total de elementos pertenecientes al subgrupo poblacional 


Ud, 


Resultado 10.5.1. Los pesos de calibración para el caso de post-estratificación 
están dados por 


N 
Wy = di == e (10.5.4) 


g,T 


y son invariantes a la escogencia de cualquier distancia. 


Prueba. La construcción del estimador de calibración para este esquema parti- 
cular es como sigue. En primer lugar, nótese que si el k-ésimo elemento pertenece 
al subgrupo Uy, entonces 


MXp = Ag (10.5.5) 


Por tanto la restricción de calibración dada por 


S di FAX) x= €, (10.5.6) 
keS 
puede ser re-escrita como 


Y di F(Ag) 


k€Us 


1 


No dEl: O (10.5.7) 


Por tanto, despejando la anterior ecuación, se tiene finalmente que 


ÑN, Ñ, 
= de 0 PEE IO E (10.5.8) 
deu, de Nor 


F(Ay) 


Luego, de (10.3.3) los pesos de calibración están dados por 


Nótese que en la construcción de los pesos de calibración no importó la escogencia 
de la distancia. Lo 


Por tanto el estimador de calibración está dado por 
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ty, cal — > WEYk 


kes 
2 N, Yk 
g=1 kE€S, “97 


que equivale al estimador de post-estratificación. 


10.5.2 Raking 


Si Deming hubiese dado cuenta de los estimadores de calibración cuando se usa la 
distancia multiplicativa como marco de referencia, hubiera estado muy contento al 
darse cuenta de que su método pudo ser generalizado e incluido en el contenido de 
la ciencia estadística. Al principio, el IPFP se usó de manera totalmente pragmáti- 
ca, simplemente se trataba de realizar un ajuste para que las estimaciones internas 
de la tabla de contingencia calibraran los totales conocidos. Bajo este marco de 
referencia, el IPFP era criticado por ser un método matemático y no estadístico 
cuyos resultados no tenían en cuenta el diseño de muestro que se había usado para 
la recolección de la información. Como se verá en esta sección, el estimador de 
calibración que apunta a la estimación de las celdas internas en tablas de contin- 
gencia es equivalente al resultante del método IPFP. De hecho, el método IPFP 
es un caso particular de este escenario que se conoce con el nombre de Raking. 


Como caso particular se considera la estimación de una tabla de contingencia a 
dos vías con calibración sobre los totales marginales. Por lo anterior, la partición 
de la población sigue el patrón de la siguiente tabla. 


Tabla 10.9: Partición de la población. 


Um --- Um + Usa [U, 
Uni “+ Ung “=* Una | Un. 
Umi * Uy **: Una |Un. 
A A U 


Se supone que q, = 1 para todo k € U y xy = (d) ;,, d/ ,), donde d:; es un vector de 
H variables dummy denotando a cuál post-estrato pertenece el k-ésimo elemento 
y d>, es un vector de G variables dummy denotando a cuál post-estrato pertenece 
el k-ésimo elemento. Nótese que 


O A O (10.5.10) 
keU 


Sea u = (uz,...,ug)' un vector de orden H y v = (v1,...,uvg)' un vector de orden 
G. Definiendo A' = (u”, v”), se tiene que si el k-ésimo elemento pertenece a la celda 
Uy, entonces 
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F(qA'Xz.) = Fur + Ug) (10.5.11) 


Por tanto las ecuaciones de calibración (10.5.6) pueden ser escritas como el si- 
guiente sistema de ecuaciones 


H 

SN NpgmFlun +09) =N y g=1...,G (10.5.12) 
h=1 

G 
SN" NngFlun +09) = Nh. h=1,...,H (10.5.13) 
g=1 


donde Ñ, hg,r Corresponde al estimador de Horvitz-T'hompson de Ny. Si se utiliza 
la distancia de entropía, se tiene que 


F(u» + ug) = exp(u» + ug) = exp(u») exp(ug) (10.5.14) 


Por tanto el sistema de ecuaciones dado por (10.5.12) y (10.5.13) toma la siguiente 
forma 


Ny 
exp(u,) = = h=1,...,H 10.5.15 
as a Nhg exp(ug) | 
Nh. 
exp(u¿) = ! g=1,...,G (10.5.16) 


E 
> n=1 Nhg exp(ur) 


Una solución para el anterior sistema de ecuaciones se obtiene al iterar hasta 
convergencia el algoritmo IPFP como sigue. 


1. Fijar exp(v,) = 1 y calcular exp(u,) en (10.5.15) 


2. Luego insertar este valor de exp(u,) en (10.5.16) y calcular un nuevo valor 
de exp(uy) 


3. Iterar hasta convergencia 


Después de que el algoritmo ha finalizado, el estimador de calibración para el total 
de la celda Uy está dado por 


Nros = Nai exp(un + 09) = Mia exp(u,) exp(uz) (10.5.17) 


y los nuevos pesos calibrados son wz = dz exp(u + v¿) = dy exp(u,) exp(uy) si el 
k-ésimo elemento pertenece a la celda U),z. 
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10.6 Varianza de los estimadores de calibración 


Cerramos este capítulo con una importante propiedad de los estimadores de cali- 
bración. 


Resultado 10.6.1. El estimador de calibración es asintóticamente equivalente al 
estimador general de regresión bajo las siguientes condiciones de regularidad: 


tx 
1. lím + existe 
N 


Lor 


=> tx “]> 
2. —+F— >50en probabilidad! 


N 


ber — 4 
3. AN converge en distribución a la normal multivariante N(0, A) 


Prueba. La demostración del anterior resultado se sale del alcance de este libro. 
Sin embargo, el lector interesado puede consultar en Deville 4 Sárndal (1992). Mi 


En particular, bajo el anterior resultado, el estimador de calibración comparte las 
mismas esperanzas asintóticas y las mismas varianzas asintóticas que el estima- 
dor general de regresión. Esto puede ser visto mediante el siguiente argumento 
heurístico: 


e Se asume que para tamaños de muestra grandes el estimador de Horvitz- 
Thompson, tx.,, es cercano al total poblacional de las características de in- 
formación auxiliar, tx. Lo anterior se tiene puesto que tx, es un estimador 


consistente para tx. 


e Entonces, siguiendo la ecuación (10.3.4), el valor de F(-) debería ser cercano 
a uno y el valor de A debería ser cercano a O 


e Sin embargo, por la construcción de las funciones F(-) y dado que F(0) = 
F'(0) = 1, entonces todas las funciones F(-) deberían tener el mismo com- 
portamiento en la vecindad de 0. 


e Por tanto, todas las funciones F(-) pueden ser aproximadas mediante la 
función F(u) =u-+1l. 


e Es decir, la misma función que corresponde al estimador general de regresión. 


Resultado 10.6.2. La varianza aproximada y la estimación de la varianza del 
estimador de calibración está dada por. 


AV (ty,ca1) = Y Y Arr(dr Ex) (d,Er) (10.6.1) 
U 

Var(tyca) = YY uy) (une) (10.6.2) 
S 


respectivamente. Donde Ey = yx — X,,B y B satisface las ecuaciones normales en 
la construcción del estimador de regresión. También ex = y. — X,B y B es un 
estimador de B. 


1El marco de referencia de esta medida de probabilidad está dado por el diseño muestral que 
se utilizó en la estrategia de muestreo. 
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10.7 Marco y Lucy 


Volviendo con el ejercicio práctico de estimación, suponga que el gobierno desea 
obtener una estimación del total de impuestos que el sector industrial aportó en el 
último año fiscal. Estas estimaciones se requiere que sean muy precisas puesto que 
con base en estos resultados se replanteará una parte del presupuesto nacional. 


En esta ocasión, el gobierno pone a disposición del estadístico un marco de mues- 
treo que incluye la identificación y ubicación de todas las empresas pertenecientes 
al sector industrial. Además de esto, el gobierno tiene la disponibilidad de conoci- 
miento del total poblacional de dos características de información auxiliar; a saber, 
el total poblacional de la variable Employees correspondiente a 151950, el total 
poblacional de la variable Income correspondiente a 1035217 y, por supuesto, el 
total poblacional del número de empresas del sector industrial correspondiente a 
2396. 


Bajo el anterior esquema, se planearon varias estrategias de muestreo que maneja- 
ban un diseño aleatorio simple de 400 empresas y estimadores de calibración bajo 
varias distancias. Para la selección de tal muestra se utilizó el siguiente código 
computacional 


data(Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 

n <- 400 > sam <- sample(N,n) 
muestra <- Lucy[sam,] 
attach(muestra) 


VWVWvVOyvvVv o 


Una vez que la muestra fue seleccionada se utilizó el paquete sampling del softwa- 
re R para calcular lo estimadores de calibración. En particular se utilizó la función 
calib que calcula los pesos wz del estimador de calibración. Esta función cuenta 
con varios argumentos; entre ellos están lo siguientes: Xs, la matriz que contie- 
ne los valores de las características de información auxiliar para los individuos 
incluidos en la muestra, d, correspondiente al inverso de los pesos de las probabi- 
lidades de inclusión de los elementos en la muestra, tx, que corresponde al total 
poblacional de las variables de calibración, method que incluye cuatro posibles dis- 
tancias que son la distancia Ji cuadrado cuyo acepción en la función calib está 
dada por method=” *linear?”?”, la distancia de entropía cuya acepción en la fun- 
ción calib está dada por method=” *raking?*” y los métodos logístico y truncado 
cuyas acepciones en la función calib están dadas por method=”*logit”* y por 
method=? *truncated? ?, respectivamente. 


Se calcularon las estimaciones de calibración usando los cuatro métodos y el código 
utilizado se muestra a continuación. 


> library(sampling) 

> ys <- data.frame(Income, Employees, Taxes) 

> Xs <- cbind(1,Income, Employees) 

> piks <- rep(n/N,times=n) 

> tx <- c(N,1035217,151950) 

> wi <- calib(Xs, d=1/piks, tx, method="linear") 
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w2 <- calib(Xs, d=1/piks, tx, method="raking") 

w3 <- calib(Xs, d=1/piks, tx, method="logit", 
bounds=c(0.75,1.2)) 

w4 <- calib(Xs, d=1/piks, tx, method="truncated", 
bounds=c(0.75,1.2)) 


+ V+voy 


La función calib solamente calcula los pesos que intervienen en las ecuaciones 
de calibración. Para calcular las estimación final del total de la característica de 
interés Taxes se debe proceder a multiplicar las cantidades pertinentes. De esta 
manera, el siguiente código se utilizó para el cálculo de las cuatro estimaciones. 


> tcall <- t(w1/piks)%*has.matrix(ys) 
> tcal2 <- t(w2/piks)/*has.matrix(ys) 
> tcal3 <- t(w3/piks)/*%has.matrix(ys) 
> tcal4 <- t(w4/piks)/*has.matrix(ys) 
> tcall 

Income Employees Taxes 
[1,] 1035217 151950 28729.50 
> tcal2 

Income Employees Taxes 
[1,] 1035217 151950 28851.88 
> tcal3 

Income Employees Taxes 
[1,] 1035218 151950.1 29018.58 
> tcal4 

Income Employees Taxes 


[1,] 1035217 151950 28994.22 


La tabla 10.10. muestra el comportamiento de los estimadores de calibración del 
total de los impuestos declarados por las empresas de grupo industrial. Nótese 
que la diferencia no es grande entre ellos. Por otra parte, la ganancia en eficiencia 
relativa es alta comparada con la estrategia de muestreo simple. 


Tabla 10.10: Estimaciones realizadas con diferentes métodos de calibración para el 
total de la características de interés Impuesto. 


Método Total poblacional Total estimado  Desv.% 


Lineal 28654 28729 0.26 
Raking 28654 28851 0.68 
Logístico 28654 29018 1.27 
Truncado 28654 28994 1.18 


10.8 Discusión 


Sárndal (2007) afirma que la definición del enfoque de calibración para la estima- 
ción de totales en poblaciones finitas sigue los siguientes procesos: 


1. Calcular nuevos pesos que incorporen información auxiliar específica y que 
están restringidos a la ecuación de calibración. 
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2. Utilizar estos nuevos pesos para la construcción de estimadores lineales. 


3. Obtener estimaciones aproximadamente insesgadas en presencia de no res- 
puesta y otros errores no muestrales. 


Al mismo tiempo, Sárndal (2007) concluye que existen seis ideas sobre las cuales 
vale la pena profundizar un poco más. A continuación se exponen estos criterios 
que algunos estadísticos han usado para enfatizar el uso práctico de los estimadores 
de calibración: 


e Como un método de ponderación lineal: la calibración tiene un vínculo 
íntimo con la práctica. La fijación con métodos de ponderación de las agen- 
cias que manejan las estadísticas oficiales es una poderosa costumbre en la 
práctica que empezó con la ponderación de unidades mediante el inverso de 
su probabilidad de inclusión y siguió con las ponderaciones surgidas del en- 
foque de post-estratificación. Las ponderaciones de calibración extienden las 
anteriores ideas. La calibración es nueva como término en el muestreo (casi 
15 años) pero no es nueva como una técnica para producir ponderaciones, 
por ejemplo, el muestreo por cuotas es una forma de muestreo no proba- 
bilístico que induce estimaciones calibradas con los totales demográficos de 
la población de estudio. La ponderación de los valores observados de las ca- 
racterísticas de interés fue un tópico muy importante antes que el término 
calibración comenzara a ser popular. Algunos autores derivaron estas pon- 
deraciones con el argumento que deberían diferir de la manera más mínima 
posible de los pesos originales. Otros autores encontraron las ponderaciones 
al reconocer que un estimador de regresión lineal podría ser escrito como una 
suma ponderada de los valores de la característica de interés. De allí surgie- 
ron términos tales como ponderación de muestreo, ponderación de regresión 
y ponderación de caso. 


e Como una forma sistemática para utilizar la información auxiliar: 
la calibración provee una forma sistemática para involucrar la información 
auxiliar. En la mayoría de aplicaciones práctica la calibración provee un 
enfoque simple para incorporar esta información dentro de la etapa de esti- 
mación. La información auxiliar fue usada para mejorar la precisión de los 
estimativos mucho antes que el término calibración fuera popular. Existen 
cientos de artículos que fueron escritos con este propósito en mente. Hoy en 
día la calibración ofrece un camino para incorporar esta información auxiliar. 
Por ejemplo la calibración puede ser usada efectivamente en encuestas donde 
la información auxiliar está disponible en diferentes niveles. Al realizar un 
muestreo en dos etapas la información auxiliar puede existir para las unida- 
des de la primera etapa (los conglomerados) y puede existir otra información 
para las unidades de la segunda etapa (elementos o conglomerados). 


e Como un enfoque para conseguir consistencia: en algunas ocasiones el 
término calibración se refiere a una forma de conseguir estimativos consisten- 
tef'] Las ecuaciones de calibración imponen la característica de consistencia 
sobre el vector de ponderaciones; así que, cuando éste se aplica a las variables 


5En este apartado la palabra consistente se da en el sentido de la consistencia con los totales 
de la información auxiliar. 
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auxiliares el resultado será consistente con los totales de estas variables. Un 
deseo de promover la credibilidad en las estadísticas oficiales es una razón 
para que las entidades busquen la consistencia. Cuando la motivación prima- 
ria para la calibración no es la concordancia con los totales de la información 
auxiliar sino el reducir la varianza y el sesgo debido a la ausencia de respuesta 
entonces el vector de ponderaciones se dice balanceado. 


Como excusa de transparencia y conveniencia: el enfoque de cali- 
bración ha ganado popularidad en las aplicaciones reales debido a que las 
estimaciones resultantes son fáciles de interpretar y de motivar puesto que 
están directamente relacionadas a los pesos inducidos por el diseño de mues- 
treo. La calibración sobre los totales conocidos brinda al usuario una forma 
natural y transparente de estimación. El usuario que entiende la ponderación 
muestral aprecia el método de calibración puesto que modifica sutilmente los 
pesos originales, pero al mismo tiempo respeta los totales de la información 
auxiliar y mantiene el sesgo despreciable. Existe otra ventaja que es aprecia- 
da por los usuarios, en la mayoría de aplicaciones, la calibración induce un 
único vector de ponderaciones aplicable a todas las variables involucradas en 
el estudio. Esta última razón hace que este método sea muy apetecido en las 
entidades oficiales que manejan encuestas muy extensas. 


En combinación cono otros términos: Algunos autores usan la palabra 
calibración en combinación con otros términos para describir varias direc- 
ciones de pensamientos, entre esta proliferación de términos están: calibra- 
ción modelo, calibración G, calibración armonizada, calibración a un nivel 
más alto, calibración de regresión, calibración no lineal, calibración super- 
generalizada, calibración de modelos de redes neuronales y calibración basa- 
da en modelos locales polinomiales, entre otras. La calibración juega un rol 
significativo en los métodos de muestreo indirectos (ver capítulo 12). Este 
término también ha sido usado, aunque en un espíritu diferente, en conceptos 
tales como imputación calibrada y calibración sesgada. 


Como una nueva dirección de pensamiento: si la calibración represen- 
ta un nuevo enfoque demarcado claramente de sus predecesores, entonces es 
tiempo de hacer la pregunta: ¿La calibración generaliza las teorías anterio- 
res? ¿La calibración da mejores respuestas a las preguntas de importancia, 
que los enfoques de estimación anteriores? En la práctica el estadístico en- 
cuentra algunos pormenores tales como ausencia de respuestas, deficiencias 
del marco muestral y errores de medición. Es cierto que algunos procesos 
como la imputación y la reponderación para no respuestas son ampliamente 
difundidos y usados en la práctica. Sin embargo queda un sinsabor al utilizar 
estos métodos pues no están enmarcados dentro de una teoría exhaustiva de 
inferencias en poblaciones finitas. La mayoría de artículos teóricos tratan 
con la estimación de parámetros bajo un mundo ideal, que no existe en la 
práctica, donde la ausencia de respuesta y otros errores no muestrales están 
ausentes. 
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Como lo afirma Wu (2003) existen dos variantes en la construcción de un estima- 
dor de calibración: una está dada por la escogencia de la distancia y la otra por el 
conjunto de ecuaciones de calibración] en áreas como la demografía existe la cos- 
tumbre de calibrar sobre muchas variables, para que se logre estimar con varianza 
nula los totales conocidos de las variables auxiliares, sin importar que el estimador 
resultante pueda perder eficiencia. En estos términos, sería mejor utilizar la menor 
cantidad de ecuaciones de calibración para no estropear el buen comportamiento 
del estimador. La pregunta que debe plantearse el investigador es ¿cuál es la mejor 
ecuación de calibración que se debe usar en la construcción de un estimador de 
este tipo? 


Si ux = u(xx), donde u(-) es una función de valor real, entonces una nueva forma 
de construir un estimador de calibración estaría dada por la consecución de unos 
pesos wr restringidod”] a 


$ wWku(xg)= y u(x;) 


keS keU 


Por tanto, la pregunta se torna más diáfana y se convierte en ¿cuál función u(-) 
hace al estimador dd más eficiente? Ahora, es bien sabido que bajo la inferencia 
basada en el diseño de muestreo, no existe un estimador insesgado de mínima 
varianza uniformemente (Cassel, Sárndal € Wretman 1976a). Sin embargo, es 
posible obtener un estimador óptimo bajo la inferencia asistida por modelos de 
super-población. La respuesta a estas preguntas está dada por la propuesta de 
Wu (2003) que construyó un estimador óptimo de calibración suponiendo que las 
respuestas de yz pueden ser vistas como realizaciones del siguiente modelo de 
super-población semi-paramétrica 


Eslyxlxx) = 1(xx,0), Varelyrlxx) = [v(xg))20? , (10.9.1) 


donde pu(+ ,-) y v(-) son funciones conocidas, O y 0? son parámetros desconocidos 
del modelo. Se asume que los yx, k € U, son condicionalmente independientes 
dadas las xx. Nótese que y puede ser una función conocida de y como en los 
modelos lineales generalizados. 


Los estimadores óptimos, asistidos por un modelo de super-población €, que mini- 
mizan el valor esperado de la varianza basada en un diseño de muestreo, Es(Varp(Y )), 
han sido discutidos] por muchos autores. Por ejemplo, en Isaki $ Fuller (1982b) 
esta varianza esperada tomó el nombre de varianza anticipada. 


Resultado 10.9.1 (Teorema 1 de Wu (2003)). Sea t, c,, un estimador de calibra- 
ción del total poblacional de la característica de interés, construido utilizado la 
restricción (10.9), donde C., = [u(x1), u(x2),..., u(xmw)) es la familia de vectores 
de todas las posibles funciones de valor real aplicadas a la información auxiliar. 


SNótese que si el vector de información auxiliar tiene P variables auxiliares, entonces habrán 
P ecuaciones de calibración. 

“Bajo este marco de referencia aparece una reducción en la cantidad de restricciones que se 
utilizan en la calibración. 

8Los términos E, y Var se refieren a la esperanza y varianza bajo un diseño muestral p(-), 
y Ez y Var¿ denotan la esperanza y varianza bajo un modelo de super-población £. 
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Dentro de la clase de estimadores de calibración t, c,,, la escogencia de 
¡om = [u(x1, 0), p(xa, 0), Sra , MXN, 0); 


minimiza E¿(Varp(Y)) bajo el modelo de super-población dado por (10.9.1) y 
suponiendo condiciones de regularidad en el diseño de muestreo. 


Con este resultado podemos proseguir a la construcción del estimador óptimo de 
calibración resultante de minimizar Ji-cuadrado sujeta a la siguiente restricción 


S río = Y De 


keS keU 
Donde fi = p(Xz, Ó). La razón para esto se debe a que los valores del vector O 
son desconocidos y se deben reemplazar por un estimador basado en la muestra 
seleccionada dado por 6. La minimización se realiza usando un multiplicador de 
Lagrange como en Deville (1999). De esta manera, es muy fácil conseguir la expre- 
sión del estimador óptimo de calibración, el cual está dado por (Wu ez Sitter 2001b) 


en donde tí, = dep fir es el total poblacional de las funciones f%, tan su corres- 
pondiente estimador de Horvitz-Thompson y 


B, — 2res Mar Yn 
l nes Udri 


En resumen, los estimadores óptimos de calibración se han estudiado y profundi- 
zado en Wu éz Sitter (2001b) y Wu (2003) y su fundamento se encuentra en la 
inferencia asistida por modelos. Para motivar las condiciones de optimalidad se 
utilizó un modelo de super-población semi-paramétrica general dado por (10.9.1). 
Estos estimadores de calibración para el total poblacional de la característica de 
interés tiene las siguientes características: 


1. Una distancia Ji-cuadrado cuyos factores de peso satisfacen q, > O y además 
sean tales que NL NAL, gh =0(1). 


2. Una sola restricción, dada por una reducción de dimensión uz = (Xy, 0), 
donde la forma funcional y(- ,-) puede ser arbitraria. 


Algunos de los resultados más importantes de este método pueden ser resumidos 
de la siguiente manera (Wu 2003): 


e Sea Ó = Ores MO) res di drXrYk. Si se usa uy = X, 0 como 
variable de calibración, el estimador de calibración resultante es idéntico 
al estimador convencional de calibración dado por nal Por tanto la clase 
de estimadores resultantes de este método es muy general pues incluye al 
estimador original como un caso particular. 
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e Para cualquier estimador consistente de O tal que O = 0 +0) (1), si se reem- 
plaza 6 por 6, en las ecuaciones de calibración, el estimador de calibración 
resultante no cambia asintóticamente. 


e Los estimadores óptimos de calibración obtenidos usando uz, = Eg(yx | Xx) = 
p(x;, 0) son óptimos bajo el criterio del mínima varianza esperada. 


e Los estimadores óptimos de calibración son óptimos bajo el modelo de super- 
población £, pero aun si el modelo considerado es incorrectamente especifi- 
cado, estos estimadores permanecen consistentes. 


Dado que no existe un estimador insesgado con varianza mínima uniforme, la única 
escogencia de u(-) que hace a e un estimador con las anteriores características 
es u(Xy) = y;, y por supuesto esto es prácticamente inútil. Por tanto se debe hacer 
El lector debe notar que la estructura del modelo £ dado por es muy 
general e incluye dos importantes casos: el primero el modelo de regresión lineal o 
no lineal dado por 

Yx = pU(Xx, 0) + VpEr, (10.9.2) 


donde los ey son variables aleatorias independientes e idénticamente distribuidas 
con Eg(ex) = 0, Varg(ex) = 0? y vz = v(xg) es una función conocida y estricta- 
mente positiva. 


El segundo caso se refiere al modelo lineal generalizado dado por 
g9(1i) =x,0, Varg(yrlxu) = (ua) (10.9.3) 


donde uz = Es(yr|xx), g(-) es una función de vínculo y v(-) es una función de 
varianza. 


A continuación se describe el comportamiento de los estimadores óptimos de cali- 
bración bajo un modelo lineal y un modelo log-lineal. 


u(x) Vía mínimos cuadrados 


Si la información auxiliar explica a la característica de interés de forma lineal, 
como se observa en la figura 10.5, entonces tendría sentido el argumento que se 
expresa en Deville $: Sárndal (1992), en donde motivados por el estimador de 
razón, se argumenta que <...las ponderaciones [de calibración] que se ajustan bien 
a las variables auxiliares [reproducen exactamente su total poblacional], también 
se ajustan bien a la variable de estudio...> 


En el caso multivariado, la función que hace óptimo al estimador de calibración 
está dada por 
u(Xxg, 6) = xj 0 =00+01%11 +... +ÓOpIrp (10.9.4) 


en donde O = (0p,0,,..., Op) es estimado a través de mínimos cuadrados pondera- 
dos, como en una regresión múltiple. Por lo tanto la característica de interés sigue 
el siguiente modelo de super-población 


Yk = Xp.0 + UpE%, (10.9.5) 
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Figura 10.5: Comportamiento lineal de la característica de interés explicada por la 
información auxiliar. 


donde los e; son independientes e idénticamente distribuidos con Eg(ex) = 0 y 
Varélex) = 0?, y Vx = v(xy) = 1. Por tanto al estimar O usando la técnica de 
mínimos cuadrados se tiene que 


-1 
0 = (E 0) e OR XL Yk 


kes kes 
= UVAX) XV" ly 


donde V = diag(d191,...,dnqn) = +>diag(d1, Lil): 


Resultado 10.9.2. De esta forma, el estimador de calibración del total poblacio- 
nal resultante del anterior modelo de super-población está dado por 


ty,opt == tur + (tx F tur) 0 (10.9.6) 
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Prueba. 


puesto que By = 1. Lo anterior se tiene de la definición de By teniendo en cuenta 


que 


fu =X10=0 (XVAX) XV y 


Por tanto, 


Y drquiz =y VOX VOX) XV XV IX) XV ly 


kESs 


E y VIX(XVAX) XV y 


= y dx he [ir Y 
keS 


Nótese que el termino By es igual a uno y por tanto desaparece, lo que hace que 
el estimador óptimo de calibración sea idéntico al estimador de calibración clásico 


dado por (10.4.5). 


u(x) Vía modelo lineal generalizado 


¿Qué sucede si la información auxiliar no describe a la característica de interés 


con un comportamiento lineal?, como se observa en la figura 10.6 


Es ésta la parte más importante del desarrollo práctico en los estimadores óptimos 
de calibración. Al respecto, el usuario puede pensar por un instante en los siguientes 


cuestionamientos: 


e Si una característica de información auxiliar explica muy bien a la carac- 
terística de interés, entonces calibrar con respecto a esta información auxiliar 
sería muy conveniente. Sin embargo, esta relación no siempre será lineal. 


e Si queremos estimaciones perfectas deberíamos utilizar a la misma carac- 
terística de interés para calibrar, pero como esto es un absurdo se debe 


utilizar u(x) semejante a y. 
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Figura 10.6: Comportamiento no lineal de la característica de interés explicada por 
la información auxiliar. 


Si se conoce que la información auxiliar disponible no describe a la característica 
de interés de forma lineal, se ponen en tela de juicio la aplicación de los estimadores 
clásicos de calibración motivadas por Deville (1999). Por tanto, si los valores de 
la característica de interés son considerados como realizaciones de un modelo de 
super-población £ como en que puede ser descrito a través de su primer 
y segundo momento, entonces claramente el modelo lineal generalizado (MLG), 
descrito detalladamente en McCullagh $ Nelder (1989) y dado por (10.9.3). La 
mayor particularidad del MLG es que la varianza de la característica de interés 
depende de la media pz. Además, en el MLG se considera que la característica de 
interés se relaciona con las variables de información auxiliar mediante la media Lx 
y una función de vínculo g(-) tal que 


gx) =00 +01 x1 +... + Ó0ptpp 


Nótese que el modelo clásico de regresión lineal es un caso particular del MLG en 
donde g(ux) = .x y V(px) = 1. Por supuesto, existen otras formas de la función 
de varianza y, vínculos no lineales también son permitidos. Por ejemplo, entre las 
funciones de vínculo y de varianza más populares están el vínculo logarítmico dado 
por g(ux) = log(p1x) y las funciones de varianza de Poisson dada por V (ug) = Lg 
y la varianza Gamma dada por V (uz) = pu. 


El MLG es un método semi-paramétrico y requiere especificaciones solamente en 
el primer y segundo momento. La función de vínculo uz está relacionada a las 
variables independientes y la función de varianza describe cómo la variación en la 
característica de interés está relacionada con la media. 


Los coeficientes (9p, Ó1,..., 0) pueden ser estimados, como en nuestro caso, usando 
el método de máxima cuasi-verosimilitud. Para el caso más general, el estimador 
del vector de parámetros poblacionales O = (07,01,...,0p)', es la solución de la 
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siguiente ecuación 
DV"Uy-pu)=0 (10.9.7) 


La anterior, no es más que una generalización de las ecuaciones normales en 
un modelo de regresión múltiple. Donde y = (Y1,...,Yn) y  = (M1). Mn)”, 
V = diagíV (11), ..., V(n)) son las estructuras de media y varianza del mode- 
lo respectivamente, y D = 01/00. Los parámetros 0, p=1,..., P, se encuentran 
implícitos en (10.9.7). En el caso más simple, el modelo lineal clásico, se tiene que 
xk =00+0,2:1+...+O0prxp, ph = X'0 y D = X”. Luego, queda convertida 
en X"V-1X0 = X"V”!y, las cuales corresponden a las ecuaciones normales de la 
regresión múltiple. 

Por otro lado, en cualquier otro modelo, en donde la función de vínculo sea distinta 
de la identidad, la mayor dificultad para encontrar el estimador máximo cuasi- 
verosímil de O es que para resolver se necesita utilizar procedimientos 
iterativos. 


Resultado 10.9.3. Bajo un modelo de super-población MLG, el estimador óptimo 
de calibración está dado por 


Ensopt = bye se (ta = ir By (10.9.8) 
con ] 
B - Ea Ari [Y 
“ Vres UrarÍ, 


donde fi = 9 *(x1,0) y g7*(-) es la inversa de la función de vínculo. 


El software estadístico R tiene implementada la función glm, la cual permite es- 
timar los parámetros del MLG. Suponga que se desea encontrar el estimador de 
máxima cuasi-verosimilitud de 6 = (0p,01,...,0p)” para el modelo 


pix = expl0o + 01241), Var¿lyrlXxx) =v(Ur)” = 1 (10.9.9) 


Por supuesto, desde (10.9.3), se tiene que la función de vínculo es el logaritmo. 
Las siguientes líneas de código muestran cómo obtener 0 


theta0 <- Im(Y 7 X) 
thetal <- glm(Y 7” X, start=theta0,quasi(var="mu"2",link="log")) 


Nótese que thetao0 es el estimador de mínimos cuadrados y sirve como estimador 
inicial para el proceso iterativo. Análogamente, es posible crear un código propio 
para computar las estimaciones del vector de parámetros basado en McCullagh éz 
Nelder (1989, p. 327). 


tol <- 0.000000001 

theta0 <- solve(t(X)%*x%X,t(X0%*(1)) + valores iniciales 
dif <- 1 

while(dif>=to1) $ condición de iteración 

1 

mu <- exp(as.vector(X/*/theta0)) 

V <- diag(1/mu) 
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thetal <- theta0+solve(t(X)%*%X,t (Xx) %+*7V%x*7 (Y-mu) ) 
dif <- max(abs(thetal-theta0)) 
theta0 <- thetal 


) 


Por supuesto, el anterior código debe coincidir con la salida que arroje el procedi- 
miento glm de R. 


10.10 Ejercicios 


10.1 


10.2 


10.3 


(Tille e Ardilly 2006, Ejercicio 7.1) Usando un procedimiento de muestreo, 
se obtuvieron las siguientes estimaciones para los tamaños absolutos N;¿ de 
dos sub-poblaciones de interés: 


S0 170 150 | 400 
90 s0 210 | 380 
10 30 130 | 220 
180 330 490 | 1000 


Por otro lado, mediante fuentes oficiales, los tamaños marginales sí se conocen 
con certeza. Los verdaderos totales para las filas son (430,360,210) y los 
totales verdaderos para las columnas son (150, 300, 550). 


(a) Ajuste la tabla sobre los verdaderos totales marginales de la población 
usando el algoritmo IPFP. 


(b) Ajuste la tabla sobre los verdaderos totales marginales de la población 
usando el enfoque de calibración con el método de raking. 


(c) Explique las diferencias o similitudes entre las anteriores estimaciones. 
(Tille z Ardilly 2006, Ejercicio 7.4) Suponga que se obtuvo la siguiente tabla 


y que los verdaderos totales para las filas son (84, 37, 444, 464) y los totales 
verdaderos para las columnas son (49,859, 11, 10). 


18 6 0 0 84 

32 9 0 0 37 
0 O 427 17 | 444 
0 0 432 32 | 464 

110 11 3859 49 | 1029 


Como se puede notar, los totales estimados por fila coinciden plenamente 
con los verdaderos totales. Explique por qué está tabla no se puede ajustar 
al utilizar el algoritmo IPFP. 


Considere una region agrícola consistente en N = 2010 fincas, para la cual 
se seleccionó una muestra aleatoria simple de fincas de tamaño n = 100. 
Además, se sabe que hay 1580 fincas con menos de 160 hectáreas (post-estrato 
1) y 430 fincas con más de 160 hectáreas (post-estrato 2). La característica 
de interés medida en cada finca incluida en la muestra es el área de cereal 
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10.4 


10.5 


10.6 


cultivada en cada finca. Si se tuvo una muestra realizada en donde n;, = 70, 
na = 30, y1 = 19.4 y ya = 51.63, estime usando la técnica de calibración, la 
media poblacional del área de cereal cultivada en la región agrícola y reporte 
el coeficiente de variación estimado. 


Considere un diseño de muestreo de Poisson con probabilidades de inclusión 
desiguales Tx, k € U. Suponga que se tiene interés en la estimación del 
total poblacional t,. Construya un estimador de calibración usando una sola 
característica de información auxiliar 14 = 1 y qx = 1, para todo k € U, 
usando la siguiente pseudo-distancia (parametrizada por a): 


LL (124 (a-1)-ax), sia e R-—(0,1) 


a(a—1) 
G(x) =4 2ln(1)+1-x, sia =1 
In(1/x)-1+2u, sia=0 


a) Escriba las ecuaciones de calibración. 


( 
(b) Obtenga la función g(x) para los tres casos de a. 
( 
(d 
(e) Obtenga el estimador de calibración resultante. ¿Qué forma tiene el es- 
timador resultante?. 


) 
) 
c) Demuestre que la función F(u) es fija e igual a N/N. 
) Deduzca los pesos de calibración. 

) 


Suponga que la información del ejercicio 8.7. es el resultado de un plan de 
muestreo Poisson con probabilidad de inclusión mr; = n(z/tz). Utilizando 
los resultados del ejercicio anterior y suponiendo que xx = 1 y qx; = 1, para 
todo k € U, obtenga una estimación de calibración para el total de habitantes 
en el municipio, el numero de automóviles en el municipio y el número de 
efectivos militares en el municipio. Obtenga los correspondientes coeficientes 
de variación estimados. 


Sustente o refute las siguientes afirmaciones 


(a) Los estimadores de calibración inducidos por la distancia Ji-cuadrado 
coinciden plenamente con los estimadores de regresión general. 


(b) La cantidad qí es constante para todos los individuos bajo la distancia 
de entropía. 


(c) Bajo la distancia Ji-cuadrado inversa, al minimizar la distancia con res- 
pecto a las restricciones de calibración, siempre se llega a que los pesos 
1 son iguales al inverso de la probabilidad de inclusión del k-ésimo ele- 
mento. 


Capítulo 11 


Inferencia basada en 
modelos poblacionales 


Cualquier estimador usado en inferencia de poblaciones finitas debería es- 
tar basado en el mejor modelo que pueda ser construido convenientemente 
y, cuando fuese posible, en la inferencia basada tanto en modelos predic- 
tivos como en la inferencia basada en el diseño de muestreo. 


Ken Brewer (2002) 


Los anteriores capítulos de este texto se enfocan en la búsqueda de una estrategia 
representativa de muestreo bajo el paradigma de la inferencia basada en el diseño 
de muestreo. Cabe resaltar que este enfoque, propuesto en Neyman (1934), es 
ampliamente utilizado por las agencias gubernamentales en todo el mundo. Sin 
embargo, ha sido atacado desde hace varias décadas por estadísticos teóricos que 
muestran su inconformidad con los fundamentos filosóficos de este enfoque. En 
las últimas décadas se han propuesto otro tipo de enfoques, el más importante de 
ellos: el enfoque basado en modelos de super-población. Antes de adentrarnos en 
este tema, es necesario realizar un pequeño repaso a través de la evolución de la 
inferencia para poblaciones finitas. 


11.1 Un poco de historia 


Según Rao (2005), el primer personaje interesado en el método representativo (más 
adelante conocido como teoría de muestreo) fue el estadístico noruego Kiaer (1901) 
puesto que demostró empíricamente que seleccionando muestras estratificadas se 
obtienen mejores resultados en los estimativos de medias y totales. Más adelante, 
Bowley (1906) utiliza aproximaciones a la distribución normal para la estimación 
de proporciones y propone la fórmula de la estimación de la varianza para diseños 
de muestreo estratificados. Para la década de 1920, el método representativo era 
usado de manera difundida en Estados Unidos y alrededor del mundo. Fue así 
como en 1924, el IST (Instituto Internacional de Estadística, por su traducción del 
inglés al español) crea una comisión de discusión de este método. Los resultados de 
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este comité incluyen el trabajo de Bowley (1926) basado en métodos de selección 
representativos con probabilidades de inclusión iguales. Con estos avances teóricos 
y con la publicación de tablas de números aleatorios por Tippett (1927) se facilitó la 
selección de muestras probabilísticas. En ese mismo año, Hubback (1927]!] reconoce 
la necesidad de utilizar este enfoque en los estudios agrícolas puesto que: 


1. Evita los posibles sesgos personales. 


2. Es posible determinar un tamaño de muestra tal que satisfaga un margen de 
error determinado por el investigador. 


El trabajo de Bowley junto con el reporte del ISI hicieron que Neyman examinara 
las mismas bases de la inferencia en poblaciones finitas. En particular, el artículo 
de Neyman (1934) es considerado como uno de los pilares en donde descansan los 
fundamentos del muestreo como se conoce hoy en día. Al respecto Leslie Kish, en 
un comentario al artículo de Smith (1976), asegura que Neyman hizo siete grandes 
contribuciones al muestreo: 


1. Propuso la asignación de Neyman para el tamaño de muestra con diseños 
estratificados. 


2. Descubrió que el muestreo por conglomerados puede realizarse basado en un 
esquema probabilístico tal que las varianzas de los estimadores resultantes 
pudieran ser calculadas o estimadas. 


3. Para que lo anterior se tuviera, se necesita una muestra grande de unidades. 


4. Para seleccionar una muestra grande es crucial definir un marco de selección 
de números aleatorios. 


5. El conocimiento subjetivo del comportamiento de la población puede usarse 
para formar subgrupos poblacionales o estratos. 


6. Un esquema de selección probabilístico es mejor que un esquema de selección 
a conveniencia. 


7. Para convencer a los escépticos acerca de la validez de sus afirmaciones, se 
dispuso a realizar ejemplos prácticos con encuestas verdaderas a gran escala. 


La nueva teoría de Neyman revolucionó el mundo del muestreo y lo liberó del para- 
digma de las probabilidades de inclusión iguales. Él introdujo, en un solo artículo, 
las ideas de eficiencia, asignación óptima, generalización del teorema de Markov, 
muestreo por conglomerados y presentó un caso evidente en donde, utilizando 
el muestreo a conveniencia, se llegaba a conclusiones equivocadas. Más adelante, 
Neyman propuso el muestreo en dos fases. Smith (1976) afirma que el muestreo 
con probabilidad proporcional y el muestreo en varias etapas son resultado de las 
ideas de Neyman. Asimismo, propuso realizar la inferencia para muestras gran- 
des basado en la teoría de los intervalos de confianza «sin tener en cuenta las 


1El trabajo inicial de R. A. Fisher fue influenciado por Hubback. Nótese que Fisher justificó 
el análisis de los datos sin tener en cuenta el método de selección solamente en los casos en que 
los resultados fueran muy cercanos al considerar la aleatorización de las unidades (Smith 1976). 


11.1. Un poco de historia 395 


propiedades de la población finita, fuesen cuales fuesen>. Cualquier método que 
satisficiera los anteriores supuestos era llamado representativo. 


Cochran (1939) hace varios aportes significativos: introduce el uso del ANOVA 
para estimar la ganancia en eficiencia debida a la estratificación, propone la es- 
timación de la varianza para encuestas en dos etapas y reúne los componentes 
para realizar estimación por regresión bajo muestreo en dos fases. También intro- 
duce el concepto de super-población: «La población finita podría ser vista como 
una muestra aleatoria de una población infinita>. Más adelante, Cochran (1940) 
introduce el estimador de razón y desarrolla la teoría de la estimación de totales 
y medias mediante modelos de regresión. Poco tiempo después Madow éz Madow 
(1944) introducen la teoría del muestreo sistemático. 


Mientras tanto en India, Mahalanobis funda el Instituto Indio de Estadística en 
donde hace grandes aportes formulando expresiones de la varianza de estimadores 
en función del costo de una encuesta. Varios textos surgieron después de la década 
de 1940 en donde se trataba el problema de la selección de muestras y la esti- 
mación de parámetros en poblaciones finitas. Uno de los mas grandes desarrollos 
en términos de la teoría actual lo hicieron Horvitz dz Thompson (1952) quienes 
propusieron un marco de trabajo para la teoría del muestreo proporcional sin re- 
emplazo y desarrollaron un elegante tratamiento del muestreo, completando así 
las bases de la inferencia basada en el diseño de muestreo. 


Definición 11.1.1. La inferencia basada en el diseño (Design-Based) (Sárn- 
dal, Swensson de Wretman 1992) Este enfoque realiza las estimaciones de los 
parámetros dependiendo del diseño de muestreo escogido para seleccionar la mues- 
tra sin tener en cuenta las propiedades de la población finita. Así por ejemplo el 
estimador del total poblacional t,, estará dado por: 


Pa = 5 dx Yk 


kem 


en donde dj es una ponderación inducida por el diseño de muestreo. Bajo esta 
perspectiva, los valores y; son tomados como la observación en el individuo k 
de la característica de interés y. Sin embargo, y no se toma como una variable 
aleatoria, sino como una cantidad fija. 


Desde ese punto hasta nuestros días han aparecido avances y aportes y nuevas 
teorías de selección de muestras y de estimación de parámetros manteniendo la 
filosofía de la inferencia basada en el diseño de muestreo. Rao (2005) cita algunas 
de ellas por ejemplo: muestreo en varias ocasiones, muestras tipo panel, estimación 
de funciones de distribución y cuantiles, estimación en dominios pequeños. 


Por otro lado, al mismo tiempo Godambe (1955) prueba el siguiente teorema que 
pone en tela de juicio el concepto de eficiencia al que Neyman se refería puesto 
que prueba que, bajo la inferencia basada en el diseño de muestreo, no existe un 
estimador insesgado de varianza mínima. 


Resultado 11.1.1. Sea un diseño muestral p(-) de tamaño de muestra n(S) < N 
tal que rx > 0 Vk € U. Entonces, no existe un estimador insesgado de varianza 
mínima uniformemente en la clase de todos los estimadores insesgados 
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Prueba. Basu (1971) propone la siguiente demostración: suponga que Í es un 
estimador insesgado para el total poblacional t. Por tanto, t es insesgado para 
cualquier estructura poblacional y = (y1,...,Yyw). Nótese que y € Y, con Y el 
conjunto de todas las posibles poblaciones. En particular, este estimador es inses- 
gado para yo € Y. Por tanto to es insesgado para to. Ahora, nótese que 


Y —=i+to—to (11.1.1) 


es también un estimador insesgado para t. Además cuando y = yo, se tiene que 
f* = ty y por tanto Var($*) = 0. En conclusión, para que un estimador insesgado 
sea de mínima varianza uniformemente para cualquier estructura poblacional y € 
Y debe tener varianza nula. Lo anterior es imposible puesto que el diseño de 
muestreo no considera el censo. Por tanto, se tiene la demostración del resultado. 

] 


El anterior teorema es resultado de la generalidad del enfoque inferencial de Ney- 
man puesto que las inferencias son realizadas con respecto al diseño de muestreo 
sin tener en cuenta la estructura poblacional de la población. Smith (1976) afirma 
que este enfoque permite mucha libertad para una teoría inferencial y por ende no 
es posible encontrar un óptimo para todas las estructuras poblacionales. El ante- 
rior argumento sumado a la fábula de los elefantes de Basú (Basu 1971) hicieron 
que los estadísticos teóricos se replantearan el seguir haciendo inferencias basadas 
en el diseño de muestreo. 


La fábula de los elefantes de Basú 


Como lo afirma Brewer (2002), la siguiente fábula publicada removió las bases de 
la inferencia basada en el diseño de muestreo. 


El dueño de un circo está planeando transportar sus 50 elefantes 
adultos, para este propósito él necesita una buena estimación del pe- 
so total de los elefantes. Como pesar un elefante es una tarea muy 
incómoda, el dueño del circo quiere estimar el peso total pesando sólo 
un elefante. ¿Cuál elefante debería pesar? El dueño del circo decide 
echar un vistazo a sus registros y descubre una antigua lista de los 
pesos de los elefantes, elaborada hace tres años. Él encuentra que tres 
años atrás Sambo, un elefante mediano, era el promedio (en peso) de 
su manada. El dueño del circo verifica la información con el entrena- 
dor quien le asegura que Sambo todavía puede considerarse como el 
promedio de la manada. 

Así, el dueño del circo planea pesar a Sambo y tomar a 50 X YgSambo 
(donde Ysambo es el peso de Sambo) como una estimación del peso 
total ty =Y1 +... + Yyso de la manada. Pero el estadístico del circo se 
aterra al conocer la estrategia de muestreo del dueño (con un diseño 
de muestreo no probabilístico). 

- ¿Cómo puede obtener una estimación insesgada de t,? - protesta 
el estadístico. 

Así, ellos trabajan juntos en la elaboración de un diseño de mues- 
treo. Con la ayuda de una tabla de números aleatorios, construyen un 
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plan que asigna una probabilidad de inclusión de 99/100 a Sambo y 
probabilidades de 1/4900 al resto de la manada. Naturalmente, Sambo 
es seleccionado y el dueño del circo está feliz. 

- ¿Cómo va a estimar ty? - pregunta el estadístico - ¿Por qué? La 
estimación debería ser 50 X YSambo, POr Supuesto, responde el dueño. - 
¡Ohj¡ no, eso es incorrecto, responde el estadístico. recientemente, yo leí 
en un artículo de Annals of Mathematical Statistics, en donde se prueba 
que el estimador de Horvitz-Thompson es el único estimador hiper- 
admisible en la clase de todos los estimadores insesgados polinomiales 
generalizados. - ¿Cuál sería la estimación de Horvitz-Thompson en este 
caso?, pregunta el impresionado dueño - Dado que la probabilidad de 


inclusión de Sambo fue de 99/100, dice el estadístico, el estimador es 


100 
“an X YSambo- 


Ran ¿Y cuál sería nuestra estimación si el plan de muestreo hubiese 
seleccionado a Jumbo?, pregunta el incrédulo dueño. - De acuerdo a 
lo que yo entiendo acerca del estimador de Horvitz-Thompson, dice el 
infeliz estadístico, el estimador de t, sería 4900 x Yumbo AONAE Y Jumbo 
es el peso de Jumbo. 

De esta forma, el estadístico perdió su empleo (y quizás se convirtió 


en profesor). 


Lohr (2000) se pregunta si fue justo despedir o no al estadístico. Una de las fallas 
en la estrategia de muestreo utilizada por el estadístico se presenta en la construc- 
ción del diseño de muestreo que induce una probabilidad de selección muy grande 
a un elefante cuyo valor de la característica de interés, el peso, es promedio con 
respecto al resto de la manada. Como se vio en capítulos anteriores, una estrategia 
de muestreo eficiente, que utilice al estimador de Horvitz-Thompson, es aquella 
cuyo diseño de muestreo induzca probabilidades de inclusión proporcionales al 
valor que toma la característica de interés. 


La fábula de los dos estadísticos 


Lahiri (1968) expresa las dificultades que sobrevienen al tratar de explicarle a un 
hombre del común el enfoque de la inferencia en poblaciones finitas mediante la 
siguiente situación 


Suponga que dos estadísticos (¿muestristas?) son contratados para se- 
leccionar una muestra de tamaño n de una determinada población fi- 
nita. Ambos poseen la misma información acerca del comportamiento 
de la población. Este conocimiento incluye una característica de infor- 
mación auxiliar para cada unidad perteneciente a la población. Uno 
decide seleccionar una muestra aleatoria simple y el otro decide selec- 
cionar una muestra con probabilidad proporcional al tamaño. Como 
complemento de la estrategia de muestreo, ambos deciden utilizar el 
estimador y = »,Yyx/n. De manera increíble, los dos estadísticos se- 
leccionan exactamente las mismas unidades en la muestra de tamaño 
n. Por supuesto, ambos saben que la desviación típica está dada en 
términos de y — Y; sin embargo, ambos proponen medidas totalmente 
diferentes para la precisión de sus estimadores. 
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¿Cómo explicar esta situación? Este tipo de fábulas hacen un gran aporte al desa- 
rrollo de la estadística. De hecho, la narración anterior es un claro ejemplo de como 
en nuestra ciencia estadística hay una gran cantidad de cosas por hacer. Sin em- 
bargo, nótese que el mismo tipo de razonamiento aparece si los mismos estadísticos 
anteriores se enfrentaran a un problema frecuentista y uno de ellos decide que la 
verosimilitud de los datos es normal y el otro decide que es una beta. Seguramente 
llegarían a distintas estimaciones. Quien propone la estrategia de muestreo se ve 
obligado a tomar las mismas decisiones subjetivas de quien propone una verosi- 
militud, en el caso frecuentista, o una distribución a priori, en el caso bayesiano. 
Ahora, es deber de investigador asegurarse que la subjetividad esté enmarcada 
dentro de ciertos límites. Por supuesto, si usted va a medir la distancia de la tierra 
a la luna, seguramente no utilizaría un metro. 


Con los anteriores argumentos nació otro tipo de inferencia para poblaciones fini- 
tas: el enfoque basado en un modelo de super-población que asume que la estruc- 
tura de la población obedece a un modelo específico. La distribución inducida por 
el modelo provee las herramientas para predecir valores particulares específicos 
para los individuos que no fueron seleccionados en la población. 


Definición 11.1.2. La inferencia basada en el modelo (model based) 
(Valliant, Dorfman 4 Royall 2000, Smith 1976) Este enfoque supone uso de infor- 
mación auxiliar y que relaciona a la característica de interés con la información 
auxiliar mediante un modelo de superpoblación £. Bajo esta perspectiva no se re- 
quiere que los datos provengan de una muestra probabilística (la forma en la que 
se escoge la muestra no se tiene en cuenta para la estimación de los parámetros de 
interés) y la observación de la característica de interés en las unidades poblacio- 
nales y, se define como la realización de una variable aleatoria Y¡. Partiendo de 
que el total poblacional se puede escribir como 


=P TE (11.1.2) 


kEs kéEs 


la tarea es estimar por medio del modelo £, las respectivas observaciones yx de los 
elementos que no fueron seleccionados en la muestra. Denotando esta estimación 
como E(Y;), un predictor para el total estaría dado por: 


L, =D Ye +DEclYa) (11.1.3) 


kEs kés 


y por tanto la realización de T, con los datos específicos de la muestra seleccionada 
s estaría definida como 


ty = Y y + £Lsl(Y,) (11.1.4) 


kEs kéÉs 


donde Es(Y;) es una estimación de E¿(Y) realizada con los datos obtenidos de la 
muestra seleccionada s. 


Godambe € Thompson (1977) sugirieron, en el curso de una discusión en el con- 
greso internacional de estadística en Nueva Delhi, que se debía buscar una manera 
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de encontrar estimadores que tuvieran sentido en ambos tipos de inferencia. Más 
adelante, Sarndal € Wright (1984) y Brewer (1999) llevaron a cabo la implemen- 
tación de esta sugerencia. 


Aunque el tipo de inferencia dominante después de la segunda guerra mundial fue 
la inferencia basada en el diseño de muestreo, a comienzos de los años setenta, 
Richard Royall, con la ayuda de muchos co-autores, cambiaron rotundamente esa 
tendencia con gran determinación. Él afirmó que la inferencia basada en el diseño, 
aunque no hace supuestos acerca de las probabilidades y parece ser no paramétrica 
y robusta, estaba sujeta a importantes defectos. Algunas de las limitaciones que 
cita Royall (1971) son: 


e Las sorprendentes complicaciones encontradas en el estudio y ejecución de 
los diseños de probabilidad proporcional al tamaño y 


e las torpezas y equivocaciones de casi todos las estimaciones probabilísticas 
concernientes a la estimación de razones. 


La sugerencia de Royall fue aún más radical. Él propuso abandonar la inferencia 
basada en el diseño de muestreo a favor de estimadores cuyas útiles propiedades 
(insesgamiento, consistencia, optimalidad, etc.) estuvieran definidas en términos 
del modelo predictivo apropiado. Esto significa que conceptos como el sesgo y 
la varianza ya no están definidos como esperanzas a través de todas las posibles 
muestras, sino como promedios de las realizaciones de las unidades poblacionales 
(estén en la muestra o no) bajo el modelo predictivo establecido. Desde el punto de 
vista de Royall, el proceso de aleatorización se convierte en irrelevante y propone 
que la muestra sea escogida a conveniencia (lo que en la práctica significa escoger 
las unidades más grandes). Sin embargo, este tipo de inferencia debe ser usado con 
mucho cuidado pues, como lo afirma Box (1979): 


Todos los modelos son errados, pero algunos son útiles. El hecho de que 
todos los modelos están equivocados se hace más y más claro cuando 
el tamaño de la muestra se incrementa; por eso las estimaciones resul- 
tantes de un modelo predictivo errado son deficientes. 


De una cosa hay que estar seguros la inferencia basada en modelos predictivos y la 
inferencia basada en el diseño de muestreo no se deben ver como competencia sino 
como puntos de vista que pueden llegar a ser complementarios, es así como nace la 
inferencia basada en el diseño de muestreo, pero asistida por modelos predictivos 
(model assisted survey sampling, en el inglés original ). Sin embargo, estos dos 
tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su 
filosofía es literalmente distinta. 


La inferencia basada en el diseño de muestreo difiere radicalmente de la inferencia 
basada en los modelos predictivos y quizás de cualquier otro modelo estadístico, 
porque está basada exclusivamente en las observaciones muestrales y no hace su- 
puestos a priori, además su dirección de análisis va en contravía con la dirección 
de la inferencia basada en modelos. Kyburg (1987) escribe en su artículo una de- 
fensa y vindicación sobre la inferencia basada en modelos y hace un comentario 
con respecto al tipo de inferencias estadísticas que existen; él afirma que: 
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La inferencia inversa procede de lo particular a lo general, la inferencia 
directa de lo general a lo particular. 


Desde este punto de vista, la inferencia basada en el diseño de muestreo es inversa, 
y la inferencia basada en modelos predictivos es directa. Nótese que la inferencia 
bayesiana también pertenece al grupo de las inferencias inversas. Brewer (1999) 
argumenta que: 


En esta época, la tendencia es usar la inferencia basada en el diseño 
para la estimación en grandes dominios y muestreo sintético (inferencia 
basada en modelos) para la estimación en dominios pequeños dentro 
del mismo estudio. 


También hace alusión al uso de los estimadores de calibración cosméticos que 
combinan los dos tipos de inferencias simultáneamente. La idea de los estimadores 
cosméticos nace con Sarndal € Wright (1984) y el argumento para utilizar esa 
palabra es el hecho de que un estimador pueda ser visto o interpretado como un 
predictor obtenido de una regresión lo hace muy atractivo. 


Finalmente, desde la aparición del clásico libro de muestreo de Sárndal, Swensson 
é£z Wretman (1992), la historia de la inferencia en poblaciones finitas ha tomado 
otro matiz, definiendo no solamente al blanco y el negro sino que también una 
especie arco iris entre estas dos corrientes del pensamiento inferencial. Isaki éz 
Fuller (1982a) plantean el problema de tener en cuenta la forma de selección de 
la muestra y a la vez el modelo de relación £ entre la característica de interés y la 
información auxiliar, pero es en Cassel, Sárndal € Wretman (1976b) que se acuña 
un término muy polémico, la inferencia asistida por un modelo y basada 
en el diseño (model assisted design based, en el inglés original). Es decir, la 
base de la inferencia es el diseño de muestreo, pero la estrategia de muestreo es 
complementada teniendo en cuenta un £ modelo en la estimación del parámetro 
de interés. 


Para terminar el repaso por la historia, en Brewer (2002) se presenta el siguiente 
diálogo entre dos estadísticos, llamados E y L, que utilizan enfoque de inferencia 
en poblaciones finitas distintos. Uno utiliza la inferencia basada en modelos pre- 
dictivos, que utiliza los datos de la muestra para construir un modelo que permita 
predecir los valores no observados en la muestra y así llegar a una estimación de las 
cantidades de interés y que no utiliza las probabilidades de inclusión. Y otro que 
utiliza la inferencia basada en el diseño de muestreo. Cada uno acérrimo defensor 
de su punto de vista. 


E: Creo que usted sigue viviendo en los ochenta. No tenga la me- 
nor duda de que las cosas han cambiado un poco. Muchos estadísticos 
académicos están a favor de la inferencia basada en modelos predicti- 
vOS. 

L: Es cierto, pero ese tipo de inferencias no es usado en la vida 
práctica profesional. ¡Dígame al menos una entidad estatal que la uti- 
lice! 

E: Claro que las hay, al tratar de estimar parámetros en dominios 
pequeños se utilizan estimadores sintéticos. Esos estimadores están ba- 
sados en modelos predictivos. 
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L: Ah, pero sólo se utilizan en dominios pequeños. De lo contrario 
no se utilizan. Bien, si usted está tratando de estimar un parámetro 
en un dominio pequeño, la inferencia basada en modelos predictivos 
puede ser particularmente útil. 


E: No, es más que eso, se trata de que la inferencia basada en 
el diseño muestral es particularmente mala para muestras pequeñas. 
Fíjese que con una muestra probabilística usted puede seleccionar las 
unidades más grandes y dejar a las chicas de lado, con la inferencia 
basada en el diseño tendría unas malas estimaciones. Una manera más 
segura de evadir esa posibilidad es dividir la población en grupos y 
hacer una selección de unidades en cada grupo. 


L: ¿Cómo una clase de estratificación? 


E: Hmm estratificación sí, digamos que sí. La estratificación por 
el tamaño de las unidades es muy útil, pero el punto es que debería 
conocer muy bien la población. 


L: Precisamente, y si usted no conoce muy bien la población, podría, 
ajustar un modelo totalmente equivocado y como resultado tendría 
unas muy malas predicciones. 


11.2 Algunos modelos predictivos 


Valliant, Dorfman 4 Royall (2000) argumenta que no existe ninguna razón de peso 
para que los principios de la inferencia en poblaciones finitas estén tan alejados del 
resto de la teoría estadística. De esta forma, el enfoque de inferencia basado en el 
diseño de muestreo afirma que la aleatorización de las unidades a la muestra es el 
único principio válido para realizar inferencias en al población finita. Sin embar- 
go, esta rigidez hace que el estadístico se quede sin bases estadísticas para hacer 
inferencias si los datos no provienen de algún diseño de muestreo. Por supuesto 
que es válido pensar que el estadístico tiene muchas herramientas que le permiten 
hacer inferencia sin importar la naturaleza de los datos. Una de esas herramientas 
es el principio de verosimilitud que afirma lo siguiente (Gelman, Carlin, Stern éz 
Rubin 2004): 


Al momento de realizar inferencias o tomar decisiones sobre un paráme- 
tro O después de que los datos han sido observados, toda la información 
relevante se encuentra contenida en la función de verosimilitud para los 
datos observados. 


No es difícil constatar que la función de verosimilitud para cualquier diseño de 
muestreo es la misma y está dada por una función indicadora. Así que, la conclusión 
de Valliant, Dorfman éz Royall (2000) es que, aunque la aleatorización es deseable, 
no es ni necesaria ni suficiente para realizar inferencia estadística rigurosa. La 
validez de la inferencia estadística sigue estando en pie con o sin aleatorización. 
Las siguientes secciones dan cuenta de alguno de los muchos modelos predictivos 
que se utilizan para situaciones específicas en la inferencia de poblaciones finitas. 
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11.2.1 Un modelo para el muestreo aleatorio simple 


Suponga que Y¡,..., Yy es una población de variables aleatorias independientes 
en idénticamente distribuidas. El mecanismo probabilístico que rige a la población 
está dado por un modelo de superpoblación £ definido como 


Y. =B+E€x (11.2.1) 


Donde cada uno de los e, k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza constante 0?, tales que: 


(11.2.2) 


De esta población, se selecciona una muestra s de tamaño n. De esta forma se 
tienen los siguientes resultados. 


Resultado 11.2.1. Bajo el modelo 11.2.1, el mejor estimador lineal insesgado de 
P está dado por 


== Y (11.2.3) 


Prueba. El estimador de P está dado por la minimización de la siguiente función 
de dispersión 


2 
DEy (Yr NN 
kEs 


Luego de derivar e igualar a cero, se encuentra fácilmente que 4 = Y;,. Por otro 
lado, se tiene que 


Es(B) = _S Ec(Ya) =P 


kes 


Utilizando el teorema de Gauss-Markov (Ravishanker € Dey 2002, Resultado 
4.4.1) se tiene que $6 es el mejor estimador puesto que tiene varianza mínima. Mi 


Resultado 11.2.2. Bajo el modelo 11.2.1, el mejor predictor lineal insesgado de 
T, y su error cuadrático medid?] (ECMe¿) están dados por 


eN 
== y (11.2.4) 
kEs 
SS N? 
ECMe(Í,) = — (1 E 5) 0? (11.2.5) 


respectivamente. 


2Como Ty y Ty son variables aleatorias se utiliza el ECM como medida de variabilidad. 
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Prueba. En primer lugar nótese que 


=D + DI NN = EY 


kEs kéÉs kEs kEs 


Tn, es insesgado puesto que 


EAT, =D) 5 (2 En- Em) =8-0=0 


kes keU 


Por último, 


kés 
=S E Pm 1] Eg (E 1) AN—n)*8? + E¿ (Ex) 
Es kéÉs 
= [1-1] p(E1-00) + Eg (Dn 0) 
Es kéÉs 


Dado que Eg (ss Y, — ng) = Varg (es el, entonces se tiene que 


ECM¿(Í,) = E - 1 Varg¿ (E 1) + Var¿ (E 1) 


kEs kés 


= Y] ot (mo 


n 

_N? n 
1-1) 2 

== N d 


Nótese que para estimar a? es posible utilizar a 9?. De esta manera, los dos enfo- 
ques de inferencia parecen coincidir puesto que la expresiones para el estimador, 
y su varianza estimada son idénticas, aunque el trasfondo y la interpretación sean 
distintas. Además, Lohr (2000) afirma que los intervalos de confianza construidos 
a partir de los dos enfoques también coinciden aunque su interpretación nd] 


3Con el enfoque inferencial basado en el diseño de muestreo la interpretación es como sigue: 
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11.2.2 Un modelo para el muestreo aleatorio estratificado 


Suponga que Y¡,..., Y es una población de variables aleatorias cuyo compor- 
tamiento es distinto en HA grupos poblacionales cada uno de tamaño N, (h = 
1,..., H) que definen una población estratificada U =4U;,...,Ug). Claramente 
el tamaño de la poblacional general es N = Ni +-+*,Ng. El mecanismo pro- 
babilístico que rige a la población está dado por un modelo de superpoblación £ 
definido como 

York = Bn +Ehnk (11.2.6) 


Donde el subscrito hk hace referencia a las cantidades asociadas con el k-ésimo 
elemento dentro del h-ésimo estrato. Cada uno de los gx son variables aleatorias 
independientes e idénticamente distribuidas con media cero y varianza constante 
o; dentro del estrato h, no correlacionados entre estratos, tales que: 


Esc(Ynkr) = Bn 
Vare(Ynk) = 0% (11.27) 
Cove(Yr, Yo) =0 sih A 9. 
De cada uno de los estratos se extrae una muestra s» de tamaño ny (h = 1,...,H). 
El tamaño de la muestra general es n =N] +--*,Nnp. 


Resultado 11.2.3. Bajo el modelo 11.2.6, el mejor estimador lineal insesgado de 
Br (h=1,..., H) está dado por 


o E Al 
Br=Ys, = — > Ys (11.2.8) 


Prueba. El estimador de 5), está dado por la minimización de la siguiente función 
de dispersión 


Luego de derivar e igualar a cero, se encuentra fácilmente que 6, = Y;, . Por otro 
lado, se tiene que 


Eslbn) = o Y" Ec(Yax) = Bh 


kEsn 


Del análisis de varianza a una vía con efectos fijos se tiene que es el mejor puesto 
que tiene varianza mínima. | 


Resultado 11.2.4. Bajo el modelo 11.2.6, el mejor predictor lineal insesgado de 
T, y Su error cuadrático medio están dados por 


H 
Td SL SN e (11.2.9) 


si se consideran todas las posibles muestras de tamaño n del soporte Q) inducido por el diseño 
de muestreo y se construyen intervalos de 95% de confianza para la media, entonces se espera 
que el 95% de esos intervalos contengan al parámetro y. Por otra parte, el enfoque inferencial 
basado en modelos predictivos se debe interpretar en términos del modelo 11.2.1. De esta forma, 
el procedimiento induce dos variables aleatorias LS y LI tales que Pr(LI < p < LS) = 0.95. 
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H wa 
ECM¿(Í,y) =»_ 2 ( = 7) a (11.2.10) 


respectivamente. 


Prueba. En primer lugar nótese que la variable aleatoria total T' se puede re- 
escribir como 


Y Y Ta 


h=1 ke U, 


con Ty» denotando la variable aleatoria total del estrato h. Recurriendo al resultado 
11.2.2 se tiene que Ty = ea A Y, es un predictor insesgado para Tn. Por 
tanto 


Por último, 
H 2 
ECM€¿(T,) = Ez )- 2 (Y Pd ) 
h= 
H 


(T, Tun) y + 0 == Ti Tus NN Tya) 


os 
= Eg bo a >] 2 E a _ 1 


Análogamente con el modelo para muestreo aleatorio simple, es posible estimar 0% 
con S? en cuyo caso se obtendrían las mimas estimaciones en los dos enfoques. 


11.2.3 Un modelo para el muestreo por conglomerados 


Suponga que Y¡,..., Yy es una población de variables aleatorias que se encuentran 
agrupadas en N7 conglomerados que inducen una partición de la población y al 
mismo tiempo definen una población de conglomerados U, = [U;,,...,Uy,). El 
tamaño del ¿-ésimo conglomerado es N, (i = 1,...,N7). El tamaño poblacional 
general es N = Ni¡+:-*-* , Ny,. El mecanismo probabilístico que rige a la población 
está dado por un modelo de superpoblación £ definido como 


Yin = PB + Ei (11.2.11) 


406 11. Inferencia basada en modelos poblacionales 


Donde el subscrito ¿k hace referencia a las cantidades asociadas con el k-ésimo 
elemento dentro del ¿-ésimo conglomerado. Cada uno de los e; son variables alea- 
torias independientes e idénticamente distribuidas con media cero y varianza cons- 
tante 0? dentro del mismo conglomerado ¿-ésimo (i= 1,..., N7), con estructura 
de auto-correlación o;p; para los elementos pertenecientes al mismo conglomerado 
i-ésimo y no correlacionados entre conglomerados, tales que 


EslYin) =P 
Varg(Yix) =07 (11.2.12) 
Cove(Yix, Yu) =07p siitjiykAl 


El modelo indica que todos los elementos tienen una media común. Dentro de los 
conglomerados, los elementos tienen una varianza común (que puede ser distin- 
ta de un conglomerado a otro) y dentro del mismo conglomerado, los elementos 
comparten un factor de correlación. De esta forma, se selecciona una muestra de 
conglomerados sí de tamaño n7 y se observan todos y cada uno de los elementos 
pertenecientes al conglomerado. 


Resultado 11.2.5. Bajo el modelo 11.2.11, el mejor estimador lineal insesgado 
de B está dado por 
B= Y vYo, (11.2.13) 


donde 
(N,/07[1 + (NV; — D)ps]) 
Vies, (Ni/07[1+ (N; — 1)p1)) 


Vi = 


Prueba. Mediante un argumento similar al de los modelos previos y utilizando el 
análisis de varianza de efectos aleatorios se tiene la demostración del resultado. Mi 


Resultado 11.2.6. Bajo el modelo 11.2.11, el mejor predictor lineal insesgado de 
T,, y su error cuadrático medio están dados por 


N; 
TL, =D) Ya + DO Ni (11.2.14) 


1€sr k=1 iésr 
A (Ny _ ny? 
ECM¿(T,) = ) No [1 + (Ni — 1)pi] 4 (112.15) 
e 2. a. N;/07[1 uN (N; A 1D) ps] 
respectivamente. 


Prueba. El lector puede consultar la demostración de este resultado en Royall 
(1976) y en Scott €£z Smith (1969) notando que el total puede escribirse como 


N; Ni 
Ty =D) Yan + DY Y 


¿Es k=1 is] k=1 
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11.2.4 Un modelo para el muestreo por etapas 


Suponga el mismo modelo 11.2.11 pero en esta ocasión se selecciona una muestra 
de conglomerados s¡, de tamaño n; y para cada conglomerado U; € s, se selecciona 
una submuestra s; de tamaño n;. 


Resultado 11.2.7. Bajo el modelo 11.2.11 y mediante una selección en dos etapas, 
el mejor estimador lineal insesgado de P está dado por 


b=>5 vY,, (11.2.16) 


1€S1 


donde 
(n;/07[1 + (mn; — 1)pi]) 
Vies, (Mi/07[1 + (n; — Dps)) 


VU = 


Prueba. Mediante un argumento similar al de los modelos previos y utilizando 
el análisis de varianza anidado con efectos aleatorios se tiene la demostración del 
resultado. A 


Resultado 11.2.8. Bajo el modelo 11.2.11 y mediante una selección en dos etapas, 
el mejor predictor lineal insesgado de T,, está dado por 


Ty = YN) Y Ya + Y (Nim: ) [:Y, + (1-0w8] + Y NÓ (112.17) 


1€s1 kEs; 1€s1 tés] 
con w; = np; /[1 + (n; — D)pi]. 


Prueba. El lector puede consultar la demostración de este resultado en Royall 
(1976) y en Scott é£z Smith (1969) notando que el total puede escribirse como 


OD EI A 


1€s1 kEs; 1€s1 kÉs; is] k=1 


Nótese que en para el muestreo por conglomerados o por etapas, tanto el predictor 
como su varianza difieren significativamente del estimador construido mediante el 
enfoque inferencial basado en el diseño de muestreo. 


11.2.5 Un modelo para el estimador de razón 


Suponga que Y¡,..., Yy es una población de variables aleatorias independientes en 
idénticamente distribuidas y que X1,..., Xy conforman una población de variables 
auxiliares tales que su realización para cada uno de los elementos de la población 
T1,..., Ty €s conocida. El mecanismo probabilístico que rige a la población y que 
define la relación entre Y, y Xy está dado por un modelo de superpoblación £ 
definido como 


Y. = PX +€x (11.2.18) 
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Donde cada uno de los e, k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza no constante 0?X;, tales que 


Es(Yx) =PBXx 


11.2.19 
Var¿(Yx) =0*X+. ( ) 


Este modelo sólo es válido si la línea de regresión pasa por el origen y la varianza 
se incrementa a medida que la variable auxiliar aumenta su magnitud. De esta 
población, se selecciona una muestra s de tamaño n. De esta forma se tienen los 
siguientes resultados. 
Resultado 11.2.9. Bajo el modelo 11.2.18, el mejor estimador lineal insesgado 
de B está dado por Ñ 

Ys po Ta Y, 


B= E 


= 11.2.20 
Xs E Xx ( ) 


Prueba. El estimador de P está dado por la minimización de la siguiente función 
de dispersión 
D= 
nee 


mé Y, 


==—. Por 
Des Xt 


Luego de derivar e igualar a cero, se encuentra fácilmente que P = 
otro lado, se tiene que 


Es($) = SA A Y ela) = 5 PX =8 
cs Á Ss 


khes k Les 


Resultado 11.2.10. Bajo el modelo 11.2.18, el mejor predictor lineal insesgado 
de T,, y su error cuadrático medio están dados por 


- Y, 
T, = HT, 11.2.21 
y ya ( ) 
ECM¿(Í,) = Lo Mn o*T, (11.2.22) 
RES k 


respectivamente, con Ty = Y pe Xk- 


Prueba. En primer lugar el predictor toma la siguiente forma 


de NN E 


kEs kés 


Y, 
nX, «Exe = ¿Ls 
kés E 


T,, es insesgado puesto que 


Es(T, — Ty) = Ez (Er y 1) = BT, — PT, =0 
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Por último, como el predictor es insesgado, entonces 


ECM¿(Í;,, — Ty) = Varé(T, — Ty) 


=Var¿ (E Y, +) 8X, - 1) 


kEs kéÉs keU 
= Varg (E BXr = y 1) 

kés kéEs 
= Varg (E ax.) + Varg (E 1) 

kés kés 

2 
= (E x;) Vare (Ss ) +Var¿ (Tx, + .0) 
kéÉs di kéÉs 


E (E x;) res Vars(Y») + Vare (E a) 


kéÉs Des X1)" kéEs 


PATA a? 
= Xx EROS Xx 
(2 ): AE eZ 
2hgs Ak kés 2 
a (Re) Eu + Ex - Fitato T, 


kéÉs kEs E 


11.2.6 Un modelo para el estimador de regresión 


Suponga que Y¡,..., Y y es una población de variables aleatorias independientes en 
idénticamente distribuidas y que X1,..., Xy conforman una población de variables 
auxiliares tales que su realización para cada uno de los elementos de la población 
T1,..., Ty €s conocida. El mecanismo probabilístico que rige a la población y que 
define la relación entre Y, y Xy está dado por un modelo de superpoblación £ 
definido como 


Y. = Bo + P1Xx + €x (11.2.23) 


Donde cada uno de los e; k € U son variables aleatorias independientes e idénti- 
camente distribuidas con media cero y varianza no constante a?, tales que: 


Es(Y4) = Bo + B1Xr (11.2.24) 

Var¿(Yp) = 07. 
Este modelo sólo es válido si la línea de regresión pasa por el origen y la varianza 
se incrementa a medida que la variable auxiliar aumenta su magnitud. De esta 
población, se selecciona una muestra s de tamaño n. De esta forma se tienen los 
siguientes resultados. 
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Resultado 11.2.11. Bajo el modelo 11.2.23, el mejor estimador lineal insesgado 
de Bo y Bi está dado por 


a, - Esela — Ao) — Zo) 
res (Er A X¿j? 


(11.2.25) 


Bo =Y, — B1X, (11.2.26) 


Prueba. Los estimadores se encuentran minimizando la siguiente función de dis- 
persión 


2 
(Yx — Bo — P1Xy) 
pe 8 pas : 
kes 
Luego de derivar e igualar a cero, se encuentra fácilmente el resultado. n 


Resultado 11.2.12. Bajo el modelo 11.2.23, el mejor predictor lineal insesgado 
de T, está dado por 


Do =N (o dj 6,5) (11.2.27) 
Prueba. Nótese que el predictor se puede escribir como: 


Ty = y Ya + S (Bo + $1X1) 


kEs kéÉs 
=nY, +) (80 +$1X+) 
kés 
=n(Bo + 61Xs) + S Bo + B1X») 
kéÉs 
= Y (Bo + PrXx) + (60 +8$1Xx) = Y ¡(Bo + 61Xx) = N(Bo + f1Xu) 
kés kés kgU 


11.3 El teorema general de predicción 


Así como el estimador general de regresión es un caso general de muchos otros 
estimadores, en el enfoque inferencial basado en los modelos predictivos existe el 
predictor general de regresión que abarca muchos predictores incluyendo los vistos 
en la anterior sección. Sin embargo, en esta sección no sólo se estudiarán predic- 
ciones de totales poblacionales sino de cualquier función lineal de las variables 
de interés. El lector notará que el resultado general está basado en la teoría de 
modelos lineales y en particular el teorema de Gauss-Markov. Aunque en esta sec- 
ción no hacemos ningún supuesto acerca de distribuciones parametrizadas (como 
la normal, la gama o la familia exponencial), es posible hacerlo y llegar a resulta- 
dos óptimos utilizando resultados de inferencia estadística tales como el Lema de 
Sheffe o el Teorema de Rao-Blackwell (Shao 2003). 


Suponga que la población finita consiste de N unidades. El vector de las varia- 
bles de interés es Y = (Y, Ya,..., Y) y para cada elemento de la población la 
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realización de estas variables aleatorias es y = (Y1,Y2,-..,YN)'. Suponga que el 
objetivo es estimar una combinación linea]!] v/y. Para tal fin, se selecciona una 
muestra s de tamaño n. Nótese qué tanto y cómo “y se pueden particionar de la 
siguiente manera: y = (y!,y/.)' y y = (Y, Y/.)'; en donde el subíndice s se refiere a 
que el vector contiene los n elementos de la muestra seleccionada y el subíndice r 
se refiere a que el vector contiene los N — n elementos que no fueron seleccionados 
en la muestra. 


De la anterior manera, es posible reescribir la combinación lineal que se quiere 
estimar como y y = Y y + Y/.yr, la cual es una realización de la variable aleatoria 
Y Y = y, Y + y. Y,.. Es claro que el problema de estimar y”y se reduce al problema 
de predecir y/.y y. 


Definición 11.3.1. Un estimador lineal de 9 = y'Y se define como Ó = gY 4. 
Donde 8s = (91,92,...,9n)' es un vector de tamaño n. 


Definición 11.3.2. El error de estimación de un estimador 0 está dado por 0-0 = 
e. Y, — y Y y puede ser reescrito como 


EX TY (EN Ya Y Ye 
=a Y, — y, Y, 


con a=8s— Ys 


Nótese que utilizar g Y, para estimar a 0 = y'Y es equivalente a utilizar a Y, para 
predecir y/. Y, y consecuentemente, encontrar un vector óptimo g, es equivalente 
a encontrar un vector óptimo a. 


El problema que se aborda en esta sección se enmarca dentro del modelo lineal 
general dado por 


Y =X,B+ex (11.3.1) 


Donde cada uno de los e; k € U son variables aleatorias idénticamente distribuidas 
con media nula, varianza Varg(ex) = 0% y covarianza Cove(€x,€1) = pr10x0] COn 
px: un factor de correlación entre los elementos k y l (k 4 I) tales que: 


E¿(Yy) = X1,8 
Varé(Yi) = 0% (11.3.2) 
Cove(Yx, Yi) = prono  parak Al 


De forma matricial, el anterior modelo queda definido como 


Es(Y) =X8 (1133) 
Var¿(Y) =V 
4Si el objetivo es estimar el total poblacional, entonces -y” = (1,1,...,1). Si el objetivo es 


estimar la media poblacional, entonces y! = (1/N,1/N,...,1/N). 
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donde X es una matriz de variables auxiliares] de tamaño N x p, Ú es un vector 
de coeficientes de regresión desconocidos de tamaño p Xx 1 y V es una matriz de 
covarianzas definida positiva. Nótese que al momento de seleccionar la muestra, 
tanto X como V pueden ser reescritos como 


Xs n Vos Var 
aa Es a (e E) 
donde X, es de tamaño n x p, X, es de tamaño (N — n) x p, Vs, es de tamaño 


n xn, V,, es de tamaño (N — n) x (N — n), Vs, es de tamaño n x (N — n) y 
Vis = V”,,, asumiendo que V,, es una matriz definida positiva. 


Definición 11.3.3. Un estimador 0 es insesgado si E¿(0) =0 


Definición 11.3.4. El error cuadrático medio de un estimador Ó0 está dado por 
ECME¿(0) = E¿(0 — 0)? 


Resultado 11.3.1 (Royall (1976)). El mejor estimador lineal insesgado de O está 
dado por 
d= Y + Y, XL 84 Vos Vo Y )X 8 (11.34) 


donde 
B= AV AIJAA V Y (11.3.5) 


El error cuadrático medio de Ó está dado por 


ECMe (0) = Y Ver — Ves Vas Ver) Yr 


+ XV Vas Var XV XV Vos Var Ko) Y (11.3.6) 


Tr 


Prueba. En primer lugar, el error cuadrático medio está dado por la siguiente 
expresión 
Es(Ó- 0? = Esa Y. — y, Y)? 
= Var¿(a Y, — y, Y.) + (Esla Y, — y, Y ,)) 
=a Visa — 20 VorYp + Yo VrrYy + (aX, — y, Xr)8)' 


Por un lado, se busca un estimador insesgado, entonces el último sumando debe ser 
nulo. Es decir aX, = y/.X,.. Por otro lado, se busca el mejor estimador insesgado; es 
decir, el estimador de mínimo ECM; esta minimización se hace mediante la técnica 
de los multiplicadores de Lagrange. Entonces la función a minimizar, restringida 
al insesgamiento del estimador, es 


L(a, A) = a Vssa— 22 VsrY, + Y VrrYy + Aa Xy — y, Xr.) A 


5Se asume que los valores de X son conocidos para todos los elementos de la población. 
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donde A es un vector de multiplicadores de Lagrange. Diferenciando con respecto 
a A, a e igualando a cero, tenemos que 


OL > 

Po X;s E X, == 

a A A 0 

OL 

SA =2Vssa— 2WV sr y, H2X,A =0 


De la primera ecuación se tiene que 


aX, = y, Xy (11.3.7) 


De la segunda ecuación se tiene que 


a= VIHVory, — X¿A) (11.3.8) 


y utilizando la restricción (11.3.7), también se tiene que 


A= A XL Vo Var — Xi) 17 (11.3.9) 


con A, = XV, X,. Reemplazando esta última expresión en (11.3.8), se encuen- 
tra el valor óptimo de a dado por 


Var — MAURI Var — XD) Y (11.3.10) 


Aopt e Mas 


De esta manera, después de un poco de álgebra, se encuentra que el mejor predictor 
de y, Y, es 
Aopt Y s = YA Vers —= (Vr Vi Xy —- X JA XV Y. 
= YA Vs Vio Y, a Vis Vio Xs/3 E X,(B) 
=> AM (Yes ES X.,/) + X,B) 


De la definición 11.3.1., 0 = g,Y, y de la definición 11.3.2., g, = a+y,. Luego, 
0 = 1, Y, + a Y,. Reemplazando convenientemente se encuentra la demostración 
del resultado. El ECM del estimador insesgado está dado por 


ECM¿(0) = a V.,a- 22 VsrYr VW rrY y 
YA 0 Na pm) 


Pl P2 


Teniendo en cuenta que AZ XV 'X, = I, con I la matriz identidad y después 
realizar los pasos algebraicos necesarios se encuentra que la primera parte Pl 
equivale a 
Pl=Y1 Vr Vi VorY y 
-1 -1 -1 
o Va a X,A, Vs VorYr 
-1 
— YX, A; Ne 
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y la segunda parte P2 equivale a 


P2= 21 Mrs Woo VorY, 
2 Wo AV Var 
+2 Xp AX VIIV y 


Como el transpuesto de un número es el mismo número, se tiene que sumando las 
partes necesarias se llega a la demostración completa del teorema. n 


Nótese que todos los estimadores, predictores y modelos de las anteriores secciones 
son un caso particular de este resultado. 


11.4 Ignorando el diseno de muestreo 


Gelman, Carlin, Stern € Rubin (2004) explican que se debe ser un estadístico 
ingenuo si se afirma que toda inferencia debería ser condicional a los datos, sin 
importar de dónde o cómo fueron seleccionados. Esta es una concepción errada del 
principio de verosimilitud. La noción de que el método de selección de la muestra es 
irrelevante en el análisis inferencial puede ser contradicha con un argumento muy 
simple: suponga que se tienen a disposición diez datos provenientes del lanzamiento 
de diez dados; todos ellos correspondieron al número seis. La actitud del estadístico 
acerca de la naturaleza de los datos sería diferente si (1) sólo se hicieron diez 
lanzamientos, (2) se hicieron sesenta lanzamientos pero se decidió reportar sólo los 
que resultaron ser seis, (3) apareció diez veces el seis en quinientos lanzamientos y 
se decidió reportar honestamente estas realizaciones. En tales situaciones es claro 
que la distribución de los datos observados sigue un patrón completamente distinto 
que no debe ser ignorado. 


En términos generales, un diseño de muestreo no es sino una distribución de pro- 
babilidad multivariante definida sobre un conjunto de muestras que pertenecen 
a un soporte. Pero, una distribución de probabilidad no es más sino un modelo 
que se asume; en este caso, es un modelo que permite la selección de muestras 
probabilísticas. Una muestra s induce un vector de inclusión dado por 


I(s) = (1 (s),...,Ix(s),...,In(s)' 


Donde 7; (s) está definida por (2.1.8). Dado el anterior esquema, otra forma de de- 
notar el diseño de muestreo es f,(T) el cual se conoce para todos los posibles valores 
de I en todas las posibles muestras s. Por otro lado, si se asume que la medición 
de la característica de interés yz en los individuos de la población está sujeta a un 
error, entonces éstas deben ser vistas como realizaciones de variables aleatorias Y. 
De esta forma, es necesario definir un modelo para los valores poblacionales que 
puede depender de cierto parámetro. En este caso, si Y = (Y¡,...,Yx,..., Y) es 
el vector poblacional de la característica de interés, entonces fy (Y; 0) definirá tal 
modelo. 


Para realizar cualquier tipo de inferencias acerca del parámetro 0 es necesario 
trabajar con una distribución de probabilidad conjunta de (I, Y) que permita 
unificar todo el esquema anterior en un sólo proceso. La pregunta que atañe al 
estadístico es la siguiente: ¿cómo se puede expresar esa distribución conjunta en 
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términos de fi (TD) y de fy(T; 0)? Chambers é Skinner (2003) dan la respuesta a esta 
pregunta motivando la suposición de que Y sea independiente de I. En algunos caso 
como en Chambers 4 Skinner (2003, capítulo 8) el diseño de muestreo depende 
de los valores de la característica de interés; por ejemplo, en un estudio de casos 
y controles, la respuesta yz es de tipo binario, indicando si la k-ésima unidad 
corresponde a un caso o a un control. A su vez, los casos y controles inducen 
estratos cuyas muestras son seleccionadas independientemente. En este caso, el 
diseño de muestreo depende directamente de los valores de la característica de 
interés. Por lo tanto, la relación entre 1, Y debe ser expresada como 


fiv (TL, Y; 0) = fr UD) Y; 0) 


En este caso, se dice que el diseño de muestreo es informativo y no puede ser 
ignorado en términos de inferencia para 6. Por otro lado, si el diseño de muestreo 
es no informativo, la relación entre I, Y debe ser expresada como 


fhvy(1,Y;0) = A(D)fr(Y;0) 


y claramente, el diseño de muestreo puede ser ignorado. Chambers € Skinner 
(2003) afirman que los diseños de muestreo que dependen directamente de la va- 
riable de interés no son raros en la práctica. Sin embargo, los diseños de muestreo 
implementados cuando el marco de muestreo es muy deficiente como el muestreo 
en dos fases, en donde se selecciona una primera muestra y con base en los resul- 
tados de esta se diseña la estrategia para una segunda submuestra, no puede ser 
catalogado como no informativo y, por tanto, no puede ser ignorado. Por otro lado, 
es más común encontrar que el diseño de muestreo dependa de otras variables de 
información auxiliar, como en el diseño estratificado o el diseño proporcional al ta- 
maño. Á continuación se presenta el marco general dado por Valliant, Dorfman éz 
Royall (2000) para modelar conjuntamente el diseño de muestreo y el mecanismo 
probabilístico que origina a la variable de interés. 


Suponga que el diseño de muestreo depende de la variable de interés Y, de algunas 
variables de información auxiliar reunidas en una matriz X y de algún vector de 
parámetros (, entonces se reescribe como: 


fix y (1UX, Y; p). (11.4.1) 


A su vez, la distribución de probabilidad de Y depende de X y su relación está 
supeditada a un vector de parámetros 8, entonces se reescribe como 


fix (Y IX; 8). (11.4.2) 


Resultado 11.4.1. Un modelo para 1, Y, está dado por 


fiyix (1, Y[X; 6, B) = fix (Y IX; B)fiy x (UY, X; () (11.4.3) 


Prueba. Aplicando la definición de distribución conjunta y condicional se tiene 
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el resultado puesto que 


. fiv x(1, Y, X; $, 8) 
fix ¡x (1, Y[X; p, B) 7 fx (X; 8) 


AR fiv x UY IX; d) fy x (Y, X; B) 
Fx(Y,X 3 B)/fxvix (Y [X; 6) 
= fyuix(Y|[X; B) fiv x (11 Y, X; 6) 


Por supuesto, a menos de que se trate de un censo, nunca vamos a observar todos 
los elementos del vector “Y. Es decir, en cierto modo, el modelo (11.4.3) es inútil 
en términos de inferencia. Cuando se selecciona una muestra s, inmediatamente 
el vector Y queda particionado en Y,, Y. De esta manera la relación entre I, Y, 
está dada por el siguiente resultado. 


Resultado 11.4.2. La distribución conjunta de 1, Y , está dada por 


fir, ¡x (1, Y, [X; $, 8) = fas YX 8) fi (Ys YX p) dY, 
(11.4.4) 


Prueba. Esta demostración está basada en la definición de función de densidad 
conjunta y marginal (Mood, Graybill ££ Boes 1974, p. 141) la cual afirma que si 
V y W son dos variables aleatorias con densidad conjunta dada por fyw(V, W) 
entonces la densidad marginal de V está dada por f fyw(V, W)dW. En nuestro 
contexto condicional, nótese que el vector Y quedó particionado; por lo tanto 
aplicando el anterior principio y recurriendo al anterior resultado, se tiene que 


hr YX 0.8) = | xx Yo. Y, [Xi 9,8) dY, 
= [rx Yo Y AGO) fr (MY Y, Xi) dY, 
n 
Nótese que si el diseño de muestreo es ignorable, entonces el mecanismo probabi- 


lístico que gobierna la selección de la muestra no depende de la configuración de 
los valores poblacionales de la variable de interés; esto significaría que 


fix (UY, X 6) = fix (UX:; €). (11.4.5) 


Si esto llegase a suceder, entonces (11.4.4) quedaría convertida en 


Ay, x(1, Y.[X; 9,8) = fix (1UX; 0) [Iuix(Y., Y.[X: 8) dY, (11.4.6) 
= fix (UX; d) fv .¡x(Ys[X; 6) (11.4.7) 


En términos de inferencia estadística para el vector de parámetros 8 se tienen los 
siguientes comentarios: 
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1. Nótese que (11.4.7) está compuesta por dos términos que se multiplican así 


Ay. x (1 Ys[X; 9,8) = fux (UX; d) fy. ¡x(Y.|X; 6) 
AAA AMINO 
h(x) aT;B) 


Lo anterior implica que si existiese una estadística suficiente T' para 8, en- 
tonces apelando al Criterio de Factorización de Neyman (Mood, Graybill éz 
Boes 1974, p. 306), entonces T' estaría contenida en la densidad condicio- 
nal fy. ¡x(Ys|X; 8). Razón por la cual, en términos de inferencia estadística 
para 8, la distribución fix (| X; P) no contendría ninguna información. 


2. Una medida de qué tan bien los datos soportan un parámetro 8, comparado 
con un parámetro (8, es el Criterio de Razón de Verosimilitudes (Mood, 
Graybill € Boes 1974, p. 419) que está dado por 


fr, x(LY.X;9,8B2) — fix (UX; 9) fr, ¡x (Y. [X; B,) 
fir. ¡x(L Ys [X; Q,B1) ña fix UX; P) y. ¡x (Y s|X; B,) 
fx. ¡x(Ys|X; Bo) 
o tv yx(Ys|X; B,) 


Una vez más, en términos de inferencia para 8, la distribución fix (1/X; bp) 
no contendría ninguna información. 


Los anteriores argumentos apuntan a que es posible no tener en cuenta la distri- 
bución fix (UX; $). Si esto llegase a suceder entonces, si un diseño de muestreo 
es ignorable, se tiene que (11.4.7) quedaría convertida en 


fir. ¡x (1, Y.[X; 9, 8) = fy.¡x(Ys|X; B) (11.4.8) 


con lo cual se concluye que verdaderamente el mecanismo de selección de la mues- 
tra puede ser pasado por alto. Sudgen éz Smith (1984) afirman que diseños de 
muestreo como el aleatorio simple, aleatorio estratificado, proporcional al tamaño, 
el muestreo a conveniencia o el muestreo balanceado corresponde a casos en donde 
es posible ignorar el mecanismo de selección. También concluyen que aunque algu- 
nas veces los diseños de muestreo pueden ser ignorados en términos de inferencia 
para 8, es equivocado pensar que siempre pueden ser ignorados en términos de 
inferencia predictiva para el total poblacional T,,. 


Como conclusión, la escogencia del tipo de enfoque (basado en el diseño de mues- 
treo o basado en modelos predictivos) debería estar basada en la adecuación del 
modelo a la población. Es decir, si el modelo asumido es correcto. Entonces, si 
se escogió el enfoque basado en modelos predictivos y el modelo no es correcto, 
entonces las estimaciones estarán sesgadas de la realidad. Por otro lado, las estima- 
ciones que se basan en el diseño de muestreo son robustas e insesgadas a cualquier 
modelo. 
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11.5 Ejercicios 


11.1 


11.2 


11.3 


Suponga que el siguiente modelo € se ajusta a la población: 


Ye =p + VXxek k=1 N. 


donde Eg(ex) =0, Varg(e,) = 0” y los errores se consideran independientes. 
suponga los siguientes predictores para el total poblacional Ty: 


....>) 


E MO 
dy, = Zuel 
ES /Xx 
> nes Yu /Xr 
TY.2 == Y. + (N n) a 
2 ds 1/X; 


(a) Demuestre que tanto Tra como Tyo son insesgados para el modelo pre- 
dictivo, de tal forma que Es(Ty = Ty) =0. 


(b) Asumiendo que la muestra s fue seleccionada mediante un diseño de 
muestreo aleatorio simple, muestre que ninguno de los anteriores predic- 


tores es insesgado con respecto a este diseño de muestreo. 


Suponga que la muestra s fue seleccionada mediante un diseño de mues- 
treo TPT, con ri; = nXx/Tx. Muestre que Tra es insesgado con respecto 
a este diseño de muestreo, suponiendo que el tamaño de muestra es gran- 
de como para afirmar que la esperanza del cociente es aproximadamente 
igual al cociente de las esperanzas. 


Genere una población normal de N = 40 unidades con media 2X, y varianza 
4, con Xy variando entre 10 y 20. Seleccione 10 muestras aleatorias simples 
de tamaño n = 5 de esta población. Calcule X, y q = NY, para estas 10 
muestras. ¿Existe alguna correspondencia entre X, — Xy y Ta = Ty? 


Suponga que se seleccionó una muestra de tamaño n = 10 de una población 
de N = 393 hospitales. La característica de interés es el número de pacientes 
atendidos en un periodo específico de tiempo. Además se tiene conociemiento 
de una característica de información auxiliar que corresponde al número de 
camas de los hospitales. En la población de hospitales, el número total de 
camas asciende a 107956 y el número total de pacientes atendidos es 320159. 
Asuma que los valores recolectados son los siguientes: 


Y: 
X: 


41 
15 


92 
25 


297 377 
s0 96 


95 
111 


231 
125 


601 
242 


1063 
275 


1645 
351 


1894 
937 


(a) Realice un diagrama de dispersión de Y contra X. 


(b) Suponga que se quiere ajustar un modelo de la forma Y, = PX +€x, 
con ez — (0,0?X;). Calcule el mejor estimador para 8 y grafique la línea 
de regresión estimada sobre el diagrama de dispersión de la parte (a). 
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11.4 


11.5 


(c) 


Suponga que se quiere ajustar un modelo de la forma Y = Bo+8B1 Xy +€b, 
con £x — (0,0?). Calcule el mejor estimador para 3 = (Bo, B1) y grafique 
la línea de regresión estimada sobre el diagrama de dispersión de la parte 
(a). 

Calcule el predictor de expansión To = 2 Y, Y, el predictor de razón 
T,. = NY, Z2 y el predictor de regresión lineal Tir = 2 NO. Ya + (Tx 
N O Js. Calcule el error de estimación para cada una de las esti- 
maciones. ¿cuál es el efecto de utilizar la característica de información 
auxiliar? 


Suponga que se seleccionó una muestra de tamaño n = 10 de una población 
de N = 393 hospitales. La característica de interés es el número de pacientes 
atendidos en un periodo específico de tiempo. Además se tiene conociemiento 
de una característica de información auxiliar que corresponde al número de 
camas de los hospitales. En la población de hospitales, el número total de 
camas asciende a 107956 y el número total de pacientes atendidos es 320159. 
Asuma que los valores recolectados son los siguientes: 


Y: 
X: 


18 315 59 778 410 754 1166 1632 1547 2818 
38 TO 113 156 227 279 347 437 549 860 


(a) 
(b) 


(c) 


Realice un diagrama de dispersión de Y contra X. 


Suponga que se quiere ajustar un modelo de la forma Y = PBXx +E€x, 
con E Y (0,0?X). Calcule el mejor estimador para 8 y grafique la línea 
de regresión estimada sobre el diagrama de dispersión de la parte (a). 


Suponga que se quiere ajustar un modelo de la forma Y = Bo+B1 Xx +€k, 
con £ — (0,0?). Calcule el mejor estimador para 3 = (Bo, B1) y grafique 
la línea de regresión estimada sobre el diagrama de dispersión de la parte 
(a). 

Calcule el predictor de expansión To = y Y, Y, el predictor de razón 
T,. = NY, Z2 y el predictor de regresión lineal Tir = N NT. Ya + (Tx — 
y YN, X Js. Calcule el error de estimación para cada una de las esti- 
maciones. ¿cuál es el efecto de utilizar la característica de información 
auxiliar? 


Escriba el siguiente programa de simulación: 


(a) 


Genere una población de tamaño N = 200 que sigue un modelo Y, = 
Xx +HervAXx, con ez independientes con distribución normal estándar y 
Xy variando entre 10 y 20. 

Seleccione 50 muestras aleatorias simples sin reemplazo de tamaño n = 
30, y calcule el predictor de razón para cada muestra. 

Calcule el predictor de regresión bajo el modelo Yy = Xx +€p. 
Compare, empíricamente, los sesgos y los errores cuadrados medios de 
los predictor de regresión y de razón. 


¿Cuánta eficiencia se pierde al utilizar especificaciones incorrectas de la 
varianza? 
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11.6 Considere las siguientes situaciones hipotéticas para algunos estudios: 


(a) 


(c) 


Se selecciona una muestra aleatoria estratificada de hospitales median- 
te el uso de la estratificación de la población por tipos de servicio que 
provee cada hospital. Se necesita realizar estimaciones acerca del tiempo 
promedio de permanencia por paciente, clasificado por tipo de enferme- 
dad para un trimestre particular. Dado que los hospitales más grandes 
de la región no tienden a responder, entonces aún si son seleccionados 
aleatoriamente, éstos no se tendrán en cuenta. 


Suponga que en la parte (a), se intenta entrevistar a todos los hospitales 
seleccionados (tanto los grandes como los demás), pero la mitad de los 
hospitales seleccionados se rehúsan a responder la entrevista. 


Suponga que en la parte (a), todos los hospitales seleccionados aceptan 
responder la entrevista, pero los hospitales grandes sólo proveen infor- 
mación durante la tercera semana de cada mes. 


Discuta si los anteriores mecanismos de muestreo son ignorables o no. 


11.7 Demuestre que el predictor general de regresión DoS = Tr + (Tx — 


Tx) 8 es insesgado bajo el modelo Y, = X/.8+€x. Suponga que los errores 
tienen media cero y varianza constante. 


Parte III 


Otros tópicos avanzados de 
muestreo 
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Capítulo 12 


Muestreo en dos fases 


Existen numerosos ejemplos que muestran cómo la información auxiliar 
disponible puede ser usada [en la estrategia de muestreo] para lograr mayor 
precisión en las estimaciones. Sin embargo, si la información auxiliar no 
está disponible pero se conoce que puede ser recolectada de forma barata 
y en gran escala, valdría la pena conseguir tal información en una primera 
fase y luego seleccionar una muestra para la característica de interés. 


Des Raj (1968) 


12.1 Introducción 


Propuesto por Neyman (1938), el muestreo en dos fases es el diseño indicado 
cuando no se tienen conocimiento pleno del comportamiento estructural de la 
población de interés y esto se ve reflejado en un pésimo marco de muestreo que 
no contempla variables de información auxiliar (de ningún tipo: ni discreto, ni 
continuo) y por ello, no es posible proponer el uso de una estrategia de muestreo 
óptima (diseños avanzados proporcionales al tamaño o estratificados y estimadores 
de regresión o de calibración) para la estimación de los parámetros poblacionales 
de interés. 

En (Sárndal 4¿ Sweensson 1987) aparece un marco general que desarrolla la teoría 
del muestreo en dos fases de modo teórico e inducido por los principios del estima- 
dor de Horvitz-Thompson. El diseño de muestreo en dos fases (también conocido 
como muestreo bifásico o muestreo doble) se utiliza cuando existe poco o nulo co- 
nocimiento sobre el comportamiento de la característica de interés a través de los 
individuos que conforman la población. Por ejemplo, el estimador de razón combi- 
nada requiere que todos los elementos de la población puedan ser estratificados y 
que el total poblacional de la característica de información auxiliar, t¿ = ) yy Tk, 
sea conocido; sin embargo, en muchos casos prácticos no se tiene este tipo de infor- 
mación auxiliar (pertenencia de los miembros de la población a estratos específicos 
o el total poblacional de las características de información auxiliar). En estos casos 
en donde el marco de muestreo contiene poca o deficiente información para pro- 
poner un diseño de muestreo eficiente, el estadístico puede recurrir a las siguientes 
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dos opciones (Sárndal, Swensson €: Wretman 1992): 


1. 


Usar un diseño de muestreo simple como el muestreo aleatorios simple sin 
reemplazo o el muestreo aleatorio de conglomerados y combinarlo con el es- 
timador de Horvitz-Thompson para ganar más precisión conforme el tamaño 
de muestra aumenta. 


Obtener información acerca de la población para construir un nuevo marco 
muestral. Si se utiliza el estimador de regresión se logra una precisión deseada 
con un tamaño de muestra moderado. 


Nótese que la asignación de un tamaño de muestra grande o la construcción de 
un nuevo marco muestral implican el desgaste de recursos económicos y logísticos 
que tal vez el estudio no pueda soportar. De esta manera, una tercera opción es 
usar un diseño de muestreo en dos fases: 


a) 


En la primera fase, se selecciona una muestra de tamaño ny - moderado, más 
no pequeño - de elementos, la cual será denotada como S¿. La selección de 
esta primera muestra se realiza mediante un diseño pa(:). Para cada uno de 
los elementos en S, se debe obtener información sobre una o más variables 
auxiliared!] Esta muestra queda determinada por las variables aleatorias 


1 
ln=x 
O, si el elemento k no está en la muestra de la primera fase 


si el elemento k está en la muestra de la primera fase 


Por lo tanto la probabilidad de inclusión de un elemento en la primera mues- 
tra S¿ de la primera fase está dada por la siguiente expresión 


má =Prl=1)= Y. ms) (12.1.1) 
Sa>k 


y la probabilidad de inclusión de segundo orden en S, está dada por 


Tari = Pr(Ipl, =1) = y PalSa) (12.1.2) 
Sa>kyl 


En la segunda fase, con la ayuda de la información obtenida en la primera 
fase, se selecciona una submuestra S de tamaño n, de S, , mediante un diseño 
de muestreo p(: | s,). A continuación se observa la característica de interés 
para los elementos seleccionados en la submuestra. Esta muestra queda de- 
terminada por las variables aleatorias 


D 1, si el elemento k está en la muestra de la segunda fase 
k—= . p 
O si el elemento k no está en la muestra de la segunda fase 


lNótese que este proceso resulta menos costoso que obtener la información directamente de 
la población. 
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La probabilidad de que un elemento esté en esta submuestra depende de lo 
que haya pasado en la primera fase. La probabilidad de inclusión de los ele- 
mentos en la muestra de la segunda fase está dada por la siguiente expresión 


Tejs, = Pr(D; =1| 1) => p(s|sa) (12.1.3) 
s>k 
donde I = (1,,...,Iy) denota el vector de inclusión de la primera muestra. 
Por otro lado, la probabilidad de inclusión de segundo orden en S está dada 
por 
Tels, = Pr(D¿D=1|D)= Y p(s|sa) (12.1.4) 
S>kyl 


Por ejemplo, Lohr (2000) afirma que en una encuesta de empresas se podría ex- 
traer una muestra, en la primera fase, de declaraciones de impuestos y registrar el 
ingreso reportado por cada empresa seleccionada en esta primera fase (esta mues- 
tra puede ser grande puesto que se asume que no es costoso obtener la información 
auxiliar). En una segunda fase, se podría pensar en seleccionar una submuestra con 
probabilidad proporcional al ingreso medido en la primera fase, o bien, utilizar la 
información del ingreso para estratificar las empresas de la muestra de la primera 
fase y luego establecer contacto con un subconjunto de empresas en cada estrato 
con el fin de obtener la información deseada acerca de características de interés 
como gastos totales o impuestos declarados. 


El autor recalca que el diseño de muestreo que proporciona el soporte de muestreo 
que contempla tanto la primera como la segunda fase, no está dado por pa(sa) ni 
por p(s|s,) sino que, recurriendo al teorema de probabilidad total (Mood, Graybill 
8 Boes 1974), está dado por la siguiente expresión 


v(s) =D palsa)p(s|sa) (12.1.5) 


Sa DS 


Y por lo tanto la probabilidad de inclusión de cualquier elemento en la muestra 
final S, es 


Tk = Pr(T.Dy = 1) = y y PalSa)p(s|Sa) 


Sk Sas 
= Y Y palsa)p(s|Sa) 
Sad S¿CS 
s>3k 
. yo PalSa) y p(s|sa) 
Sa>k SaCS 
s>k 
= y PalSa)T js, (12.1.6) 
Sak 


Por lo tanto, bajo este tipo de esquemas de muestreo en dos fases, no es posible 
utilizar los principios del estimador de Horvitz-T'hompson, en términos de infe- 
rencia del total poblacional, puesto que aunque es posible conocer el valor de las 
probabilidades inducidas por pa(s.) para cada muestra S,, no es posible conocer 
siempre los valores de las probabilidades de inclusión en la segunda fase T;¡., para 
cada muestra S¿ puesto que éstos están supeditados a la realización de la primera 
muestra. 
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12.2 El estimador 7* 


Nótese que otro posible estimador del total poblacional de la características de 
interés es > y, Yr/Tax, este es otro estimador inútil puesto que sólo se podría 
calcular si Y y Tax fueran conocidos para todo k € sy. Pero yx solamente es 
conocido en la submuestra para k € s. Por lo tanto, condicional a sa, la muestra 
de la primera fase, la siguiente cantidad, )7,, yr/Tax, es estimada insesgadamente 
por el estimador de Horvitz-Thompson condicionado mediante 


lap YO — = y HE (12.2.1) 


TakTk|s, 


y definido como el estimador 7* (Sárndal €: Sweensson 1987). 


Resultado 12.2.1. En muestreo bifásico el total poblacional t, es estimado inses- 
gadamente por el estimador m*. Además la varianza del estimador y la estimación 
insesgada de la varianza están dadas por 


Var pi (6 y,T* 22,2 Aa a a + E A (LE duo! Edo 2) (12.2.2) 


O EE Aakl Yk Y YY Aris, Yk Ye (12.2.3) 


Ta Tak Tal S FkllSa Ty Ti 


respectivamente, Con Tj = TakTp|S., Ti = TakITri|S., Aakl = Takl — TakTal Y 
AptiS. = Trtl|S, — Tr|s, Tps,, donde cada sumando de (12.2.3) es insesgado para su 
contraparte en (12.2.2). 


Prueba. Al usar el condicionamiento sucesivo del resultado 7.1.3, para la estruc- 
tura probabilística del diseño de muestreo p,, se tiene que 


Tak Tk|sa 
E Ye _ 
=2 pala), 2 = a 


Para probar los resultados de la varianza se utiliza un razonamiento similar dado 
que 


Var pi5(tym») = Var», (Eplty,n= [D) + Epa (Varp(ty,n [D) 


Para el primer sumando se tiene que, utilizando los principios del estimador de 
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Horvitz-Thompson 


Varp, (Ep (Ey, 


e Yk Y 
a Ye, 2 a 


Para el segundo sumando se procede similarmente, haciendo Yax = Y /Tax se tiene 
que 


Y Y Amis, Yak  VYal ) 


Tk|S, MUSA 


Por otro lado notando que E(D,.D¡|1) = Ty1s, y EllxL1) = Taxi se tiene el inses- 
gamiento de la estimación de la varianza. | 


Ejemplo 12.2.1. Continuando con nuestra población ejemplo U de tamaño N = 
5, suponga que en una primera fase se selecciona una muestra de n, = 2 elemen- 
tos de acuerdo a un diseño de muestreo aleatorio simple. En la segunda fase se 
selecciona una submuestra de n = 1 de acuerdo a un diseño de muestreo aleatorio 
simple?] 

Para la primera fase, y recurriendo al ejemplo 2.1.1, las ( 
junto con su respectiva probabilidad de selección, son 


N 


Na 


) posibles muestras, 


Xx1 x2 p_a 
1 Yves Ken 0.1 
2 Yves Erik 0.1 
3 Yves Sharon 0.1 
a Yves Leslie 0.1 
5 Ken Erik 0.1 
6 Ken Sharon 0.1 
7 Ken Leslie 0.1 
8 Erik Sharon 0.1 
9 Erik Leslie 0.1 
10 Sharon Leslie 0.1 


2 Aunque utilizar en las dos fases un diseño de muestreo aleatorio simple no es realista en 
la vida práctica, este ejemplo sirve para tener una mayor comprensión acerca de la estructura 
El 
probabilística inducida por el muestreo en dos fases. 
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La probabilidad de inclusión en la muestra de la primera fase, para cada uno de 
los 5 elementos de U, es 
Ra ds 
ES 
Para la segunda fase existen e posibles submuestras por cada muestra de la 
primera fase, el diseño de muestreo de la segunda fase y el diseño de muestreo 
general queda definido de la siguiente manera 


X1 x2 p_a Ss p( |s_a) p(s) 

1 Yves Ken 0.1 Yves 0.5 0.05 
Ken 0.5 0.05 

2 Yves Erik 0.1 Yves 0.5 0.05 
Erik 0.5 0.05 

3 Yves Sharon 0.1 Yves 0.5 0.05 
Sharon 0.5 0.05 

4 Yves Leslie 0.1 Yves 0.5 0.05 
Leslie 0.5 0.05 

5 Ken Erik 0.1 Ken 0.5 0.05 
Erik 0.5 0.05 

6 Ken Sharon 0.1 Ken 0.5 0.05 
Sharon 0.5 0.05 

ef Ken Leslie 0.1 Ken 0.5 0.05 
Leslie 0.5 0.05 

8 Erik Sharon 0.1 Erik 0.5 0.05 
Sharon 0.5 0.05 

9 Erik Leslie 0.1 Erik 0.5 0.05 
Leslie 0.5 0.05 

10 Sharon Leslie 0.1 Sharon 0.5 0.05 
Leslie 0.5 0.05 


Nótese que, recurriendo al teorema de probabilidad total, el diseño de muestreo 
final, que contempla la dinámica probabilística de la primera y segunda fase, queda 
definido como sigue a continuación: 


0.2, sis= (Yves), 
0.2, sis= (Ken), 
p(s)=3 0.2, sis = (Erik), 
0.2, sis= (Sharon), 
0.2, sis = (Leslie). 
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La probabilidad de inclusión de un elemento de S, en la submuestra de la última 
fase, condicionada a la realización de una muestra particular, está dada por 


Na dl 
Tk = — 
ld n 2 


Luego la probabilidad de inclusión de un elemento de U condicional dada por Tí 
es 


* 
Tk = TakTk|So = == ===- 


que, para este caso particular coincide con la probabilidad de inclusión (propiamen- 
te dicha) del elemento dada en (12.1.6). Sin embargo, casi siempre Tí 4 Tr como 
se demuestra con la siguiente configuración inducida por un diseño de muestreo 
con probabilidades de selección desiguales. 


x1 x2 p_a Ss p( 1S_a) p(s) 

1 Yves Ken 0.25 Yves 0.9 0.225 
Ken 0.1 0.025 

2 Yves Erik 0.15 Yves 0.8 0.120 
Erik 0.2 0.030 

3 Yves Sharon 0.15 Yves 0.7 0.105 
Sharon 0.3 0.045 

4 Yves Leslie 0.10 Yves 0.6 0.060 
Leslie 0.4 0.040 

5 Ken Erik 0.10 Ken 0.5 0.050 
Erik 0.5 0.050 

6 Ken Sharon 0.05 Ken 0.4 0.020 
Sharon 0.6 0.030 

7 Ken Leslie 0.05 Ken 0.3 0.015 
Leslie 0.7 0.035 

8 Erik Sharon 0.05 Erik 0.2 0.010 
Sharon 0.8 0.040 

9 Erik Leslie 0.05 Erik 0.1 0.005 
Leslie 0.9 0.045 

10 Sharon Leslie 0.05 Sharon 0.5 0.025 


Leslie 0.5 0.025 
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Nótese que, para esta configuración, y una vez más recurriendo al teorema de pro- 
babilidad total, el diseño de muestreo final, queda definido de la siguiente manera: 


0.510, 
0.110, 
0.140, 
0.095, 
0.145, 


si s = [Yves], 
sis = [Ken), 

si s = [Sharon], 
si s = (Erik), 

si s = (Leslie). 


En este caso, para la primera fase, la probabilidad de inclusión en la muestra de 
la primera fase, para cada uno de los 5 elementos de U, es 


0.65, 
0.45, 
0.35, 
0.30, 
0.25, 


Tak = 


si k = Yves, 
si k = Ken, 
si k = Erik, 


si k = Sharon, 


si k = Leslie. 


La probabilidad de inclusión de un elemento de S, en la submuestra de la segunda 


fase, condicionada a la realización de 
siguientes 10 casos (tantos casos como 


e Si Sy = S1, entonces 


una muestra particular, está dada por los 
muestras en la primera fase) 


0.90, si k = Yves, 
T = 
HS- 0.10, si k= Ken. 
e Si S, = S2, entonces 
0.80, si k = Yves, 
T 0 
HS 0,20, si k=Erik. 
e Y así sucesivamente, hasta 
e Si S, = Sp, entonces 
0.50, si k = Sharon, 


Tk|Sa = 


0.50, 


si k = Leslie. 


Por lo tanto, también existirán 10 casos para el cálculo de la cantidad T¿,, así: 


e Si S, = S,, entonces 


Tr 


0.65 x 0.90 = 0.585, 
0.45 x 0.10 = 0.045, 


si k = Yves, 
si k = Ken. 
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e Si S, = S2, entonces 


n= — $0.65 0.80 =0.520, si k= Yves, 
F" 10.35x0.20=0.007, si k= Erik. 


e Y así sucesivamente, hasta 


e Si Sa = So, entonces 


a 0.30 x 0.50 = 0.150, si k= Sharon, 
Tk == 
EF" 10.25x0.50=0.125, si k = Leslie. 


Lo anterior muestra que Tí 4 Tx, puesto que la probabilidad de inclusión está 
dada por 
0.510, si k= Yves, 
0.110, sik= Ken, 
Tk = 30.140, si k = Erik, 
0.095, si k = Sharon, 
0.145, si k = Leslie. 


Nótese que en la vida práctica, con poblaciones bastante grandes, no es posible 
calcular ri. Como ejercicio, utilizando los datos del ejemplo 2.1.3, se debe corro- 
borar el insesgamiento del estimador rí tanto en la primera como en esta última 
configuración. 


12.3 Estratificación en muestreo bifásico 


Hidiroglou £z Rao (2003) afirman que la primera propuesta de Neyman (1938) fue 
la estratificación en muestreo bifásico, en donde en la primera fase se selecciona 
una muestra aleatoria S, de tamaño nz. El siguiente paso es observar una variable 
de información auxiliar 1, para cada elemento k € S, y con base en el comporta- 
miento de esta característica se estratifica la muestra S,; es decir todo elemento 


k € Sy se clasifica en un y sólo un estrato h con h=1...,H, de tal forma que 
H H 
Sa = U Sah == Y Ma 
h=1 h=1 


en donde S,, corresponde al h-ésimo estrato de tamaño n¿», que comúnmente se 
considera aleatorio. En la segunda fase se selecciona una muestra Sy, de tamaño 
fijd*] ny para cada estrato h = 1,..., H, de tal forma que 


H H 
s=|)S», =D) a 
h=1 


h=1 


3Hidiroglou éz Rao (2003) afirman que el supuesto de que n;, es fijo es inconsistente puesto 
que depende de la variable nz», la cual varia de cero hasta mín(n1, Ny), donde Nz, corresponde 
al tamaño poblacional del estrato h. 
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en donde S corresponde a la submuestra de la segunda fase de tamaño n. Nótese 
que la muestra de la primera fase S¿ se selecciona mediante un diseño arbitrario 
PalSa) mientras que la submuestra de la segunda fase Sy dentro de cada estrato 
h=1,...,H también se selecciona mediante un diseño arbitrario en cada estratd*] 
denotado por pr(S,|S4a). 


Resultado 12.3.1. Bajo este marco de referencia, el total poblacional t,, es esti- 


mado insesgadamente por 
de Y 
tur (12.3.1) 


Además, la varianza del estimador y la estimación insesgada de la varianza están 


dadas por 
Ye Yi 
Var pi (te yT* = y 2 Aakl 
Tak Tal 


cnÉrposa) 0 


Var pis (Eyon- a A Y a (12.3.3) 
Sh 


Tk1]S, Ty Ti 


respectivamente, donde cada sumando de (12.3.3) es insesgado para su contraparte 
en (12.3.2). 


Suponga que, en la primera fase, se extrae una muestra aleatoria simple S, de 
tamaño ny de una población de tamaño N. Por tanto, 
Ma na(Na — 1) 


a O de 12.3.4 
Tak N Takl N(N-1) ( ) 


Luego, con la información recopilada en la primera fase, es posible separar las 
unidades en H estratos distintos (sólo se sabe a qué estrato pertenece el elemento 
hasta que se selecciona la muestra en la primera fase). Luego, para cada estrato, 
mediante un diseño de muestreo aleatorio simple, se selecciona una muestra de 
tamaño np, suponiendo que los estratos son de tamaño na, con h = 1,2,..., H. 
Luego, para la segunda fase, la probabilidad de inclusión de un elemento está dado 


por 
Nh 


Thls. = para k € Sap conh=1,...,H (12.3.5) 


Nah 


y la probabilidad de inclusión de segundo orden es 


a sl k = l € Sah 

Williia = HE sik Al, k,l € San (12.3.6) 
e si k € San, l € San” 
Nah Man! 


4La propuesta inicial de Neyman (1938) fue utilizar un diseño aleatorio simple tanto para la 
selección de la primera muestra en la primera fase como para la selección de las submuestras de 
la segunda fase en cada estrato. 
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De lo anterior se tiene que el estimador del total poblacional es 


A Uk N Nah 
Ed Tk Na nr eN ) 
Ss Sh 


Para calcular la varianza se procede con el condicionamiento sucesivo de la siguien- 
te manera 


D) 


D) + Emas(Voarmarltyn 


Varpisléy n=) = Varmas[Emarllyn 


N 
= V — 
ATMAS E e u) 
Sa 
N Na 
= +HEmas [Varnas y 2 | 1)) 
n Nh 


as 
a NE (1 ==) Ss? y Ny y a 1 Nh 52 
Ma NJ)" n? AR a 0 Ran) Y 
RÁ pp, = 
Vi 


donde el primer término hace referencia a la varianza de la muestra en la prime- 
ra fase mientras que el segundo término hace referencia a la varianza adicional 
debida al submuestreo en la segunda fase. Nótese que ed es la varianza de la 
característica de interés en el estrato h-ésimo de la muestra de la primera fase. Es 
importante recalcar que en el segundo término, el operador Eras está especifi- 
cado sobre todas y cada una de las posibles muestras estratificadas de la segunda 
fase. 


Rao (1973) propuso la estimación para estos componentes de varianza los cuales 
son estimados insesgadamente por las siguientes expresiones 


ES N? Ra EE Nah 2 Ta - a 
V, = (1 5) y a fa Qn)Sys, + ne 19» ES 15) 


h=1 2 


a N? E Mo n» 2 
Va —= qn (a (1- 2) AN 


a 


(a — Man La demostración de este resultado 
np(na — 1) 
puede ser consultada en Hidiroglou € Rao (2003). 


respectivamente, y donde Q), = 


12.4 Selección proporcional al tamaño 


En las secciones anteriores se ha podido comprobar cómo la información auxiliar 
puede ser usada para ganar precisión y eficiencia en la estimación del total de 
una característica de interés. En algunas ocasiones esta información puede ser 
utilizada en la etapa de diseño y en otras en la etapa de estimación. Cuando se 
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quiere utilizarla en la etapa de diseño se puede utilizar un diseño de muestreo 
proporcional a alguna característica de información auxiliar x. En esta ocasión se 
presentará la segunda opción. 


Si se sabe que el comportamiento estructura de la característica de información 
auxiliar es proporcional al comportamiento de la característica de interés, entonces 
sería deseable seleccionar la muestra con probabilidad proporcional a x. Sin embar- 
go, esta información x= no está disponible a nivel poblacional, pero se sabe que es 
barato conseguirla al menos en una muestra grande. Por tanto, ésta se recolecta en 
una muestra inicial s, de tamaño n¿ inducida por un diseño de muestreo aleatorio 
simple de una población de tamaño N. Después de que sea posible tener acceso a 
esta información auxiliar, entonces se selecciona una submuestra s de tamaño m 
con reemplazo proporcional a la variable de información auxiliar z. 


Resultado 12.4.1. Bajo este marco de referencia en donde la muestra inicial Sa 
de tamaño na es seleccionada mediante muestreo aleatorio simple y la submuestra 
s de tamaño m es seleccionada proporcional a x, entonces el estimador insesgado 
del total poblacional, su varianza y su varianza estimada están dados por 


e MA ÑN tas 
MS ds de (12.4.1) 


Na M T 
Pak a keSs k 


Ma N yu 
NDS 1 (e ' 
| t 12.4.2 
(Y NN Dina m 2 Pk Pak y ( ) 
2 2 2 z 
N taz Yk 1 Uk 
Var pi5(ty) n m(m-— 1) E 2 m (E 5) | (12.4.3) 


Es) ) 


N(N — e 2 

+ ( Na) taz yd Yx , aL 

mna(Na — 1) (CE Tr nalm — 1) ee 

: A 1 

respectivamente, COn tay = 5), E Pak = +2 Y lan = Ys. Lk. 


Prueba. Utilizando una vez más la propiedad del condicionamiento sucesivo se 
tiene que 


Y concerniente al primer término de la varianza se tiene que 


a E as Le 2 
Varmas(Eppr(ty)) = Varmas 7 ha Xi o Sy 
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Para el segundo término, acudiendo al resultado 2.2.14 y al resultado 4.2.6, nótese 
que 


A N 1 Uk 


a Pk 

Y ta) ELE mm (2) 
a Pak Tlay) = 72 PEDIA: "E 

Ma kES, 1 al Pp PI 


Por lo tanto, se tiene que 


AS N* 1 Y ? 
Enmas(Varppr(ty)) = Emas (72 Y pim (Y 2) ) 
N? 


Se k<l Pi 
1 Ye YN 
=E A MEN 
mas (ELE mn (21) 5) 
N* 1 Yk Ny? 
= 3-5) pupa (E-2) Emas(lil1) 
E Pk 
N*na(Na — 1) 1 Ye YI 
o la 
U k<l 


NG. =D 1 1 
EE (n ) > Yk t, 
(VN— Dra m E pr A Par 


Lo anterior usando la forma alternativa de la varianza del diseño de muestreo 
PPT. La demostración de la estimación insesgada de la varianza del estimador 
puede ser consultada en Raj (1968, p.143). A 


12.5 Otras aplicaciones 


Este diseño de muestreo bifásico tiene muchas aplicaciones en la vida práctica y 
los tópicos que se han tocado hasta el momento no son sino una breve introducción 
al complejo y basto mundo de las encuestas por muestreo con sus deficiencias y 
limitaciones. Sin embargo, este capítulo ha mostrado que sí es posible afrontar estas 
limitaciones desde el punto de vista teórico y encontrar una solución mediática 
a estos problemas. A continuación, un breve resumen de otras aplicaciones del 
muestreo bifásico. 


12.5.1 Mejorando el estimador 


Este capítulo se enfocó en la búsqueda de un diseño de muestreo óptimo y en 
el mejoramiento de la forma de selección de muestras en la segunda etapa. Sin 
embargo, es posible considerar un diseño de muestreo muy simple y sencilla en 
ambas etapas pero con la ayuda de información auxiliar, recopilada en la muestra 
de la primera fase, mejorar el estimador al utilizar el planteamiento del estimador 
general de regresión o de los estimadores de calibración. Por supuesto, dependiendo 
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de la calidad de la información conseguida, es posible mejorar tanto el diseño de 
muestreo como el estimador. 


Como lo afirma Estevao éz Sárndal (2001), una característica distintiva del mues- 
treo en dos fases es que la información auxiliar puede ser encontrada en varios 
niveles: 


e A nivel poblacional completo: el valor de cada una de las características de 
información auxiliar se conoce para todos y cada uno de los individuos que 
pertenecen a la población. 


e A nivel poblacional incompleto: sólo se conoce el valor de los totales de las 
características de información auxiliar mas no se valor individual. 


e A nivel de la primera fase S,: el valor de cada una de las características de 
información auxiliar se conoce para todos y cada uno de los individuos que 
pertenecen a la muestra de la primera fase Sa. 


e A nivel de la segunda fase S: el valor de cada una de las características de 
información auxiliar se conoce para todos y cada uno de los individuos que 
pertenecen a la submuestra de la segunda fase S. 


Alguna información reposa en el nivel poblacional mientras que otra lo hace en el 
nivel de la muestra en la primera fase de muestreo. Aun teniendo acceso a las dos, 
el investigador decide a discreción si utiliza ambas o alguna o incluso ninguna para 
obtener estimaciones eficientes. La varianza del estimador (de regresión o de cali- 
bración) dependerá entonces del nivel en que se encuentre la información auxiliar 
que se ha decido utilizar. Es importante identificar cuál es el tipo de información 
auxiliar que es relevante para el estudio puesto que no siempre es posible encontrar 
la información auxiliar completa; pero inclusio si es posible encontrarla, se debe 
definir si se va a utilizar o no; puesto que 


1. En algunas situaciones, la eficiencia puede decrecer dramáticamente si se 
ignora alguna característica de información auxiliar en el proceso de calibra- 
ción. Incluso es posible obtener un estimador de calibración cuya varianza sea 
menor que la de aquel construido con base en información auxiliar completa. 


2. No siempre es posible contar con información auxiliar completa así que se 
debe lograr el objetivo de mejorar la estimación con la información que se 
tiene a la mano. Es importante conocer cómo este tipo de limitaciones afecta 
la varianza del estimador. 


Estevao é£z Sárndal (2001) han mostrado que existen exactamente diez casos di- 
ferentes conteniendo distintas configuraciones de información auxiliar para los es- 
timadores de calibración y da cuenta de la varianza de los mismos dependiendo 
del caso. El tratamiento de Sárndal £ Sweensson (1987) para el estimador general 
de regresión es exhaustivo y comprende una muy buena fuente de referencia para 
estrategias de muestreo de tipo bifásico para las cuales en la etapa de estimación 
consideran un modelo de superpoblación para asistir en la eficiencia del estimador. 
Esta lectura puede ser complementada con el capítulo 9 de Sárndal, Swensson kz 
Wretman (1992). 
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12.5.2 Un modelo para la ausencia de respuesta 


Las personas que no responden con frecuencia difieren de manera crucial de las 
personas que sí lo hacen. De esta forma, es posible hacer la siguiente clasificación: 
a) la ausencia de respuesta por unidad, en donde falta toda la unidad de 
observación y suele suceder porque el encuestador no pudo establecer contacto 
con el hogar, la persona seleccionada está enferma o se rehúsa a participar. En 
esta etapa el encuestador debe determinar algunas características demográficas 
del hogar para su posterior imputación y b) la ausencia de respuesta por 
registro, en donde faltan algunos registros de la unidad de observación aunque 
otros si están efectivamente respondidos. Los siguientes son algunos puntos de 
vista para enfrentar la ausencia de Respuesta: 


e Prevención: diseñar la encuesta de modo que la ausencia de respuesta se 
pequeña. Este es el mejor método de enfrentarla. 


e Sub-muestra: seleccionar una sub-muestra representativa de las unidades que 
no respondieron y realizar inferencias. 


e Modelos: utilizar un modelo para predecir los valores de las unidades que 
no respondieron. Es decir reemplazar los registros de la unidad faltante, por 
registros predichos resultantes del modelo. 


e Ignorancia: es una práctica muy común ignorar la ausencia de respuesta en 
la encuesta y realizar inferencias con los datos recopilados de las unidades 
respondientes. 


La ausencia de repuesta conlleva grandes efectos] en los resultados de calidad de 
las estimaciones. Por ejemplo, si se aumentara el tamaño de muestra para enfrentar 
la ausencia de respuesta, es posible que nos encontremos con una mayor cantidad 
de personas de la misma clase de respondientes (homogeneidad). Nótese que el 
sesgo puede aumentar porque se malgastaron recursos que hubiesen servido para 
remediar la ausencia de respuesta. Por otro lado, si se omite el efecto de la ausencia 
de respuesta en una encuesta de victimización, se subestima el número total de 
víctimas. Ahora, en la población se forman dos estratos «respondientes> y <no 
respondientes> y el sesgo se reduce si el promedio es similar en los dos estratos 
(esta opción es imposible de conocer pues los «no respondientes> simplemente no 
responden) o si hay poca ausencia de respuesta. 


Lohr (2000) plantea que algunos de los factores que inciden en el aumento de la 
ausencia de respuesta pueden ser: 


1. Contenido: encuestas relacionadas con el uso de drogas, finanzas. Se puede 
acotar la tasa de respuesta si se ordenan las preguntas de manera adecuada. 


2. Tiempo de la encuesta: algunas temporadas arrojan tasas de no respuestas 
más altas que otras. 


3. Encuestadores: aplicar métodos estándar de mejoramiento de la calidad para 
aumentar la precisión y tasa de respuesta de los entrevistadores involucrados 
en el estudio. 


5Si se insiste en calcular y estimar totales y medias, sin tener en cuenta la ausencia de res- 
puesta, se debe informar en el reporte técnico la cifra correspondiente a la tasa de respuesta. 
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4. Método de recolección: las encuestas telefónicas y por correo tienen una tasa 
de respuesta menor que las entrevistas personales] 


5. Diseño de cuestionario: formulación de las preguntas. 
6. Agobio: encuestas demasiado largas que indisponen al respondiente. 


7. Presentación de la encuesta: es el primer contacto entre el respondiente y el 
encuestador. 


8. Incentivos: los incentivos financieros o «regalos> aumentan la tasa de res- 
puesta. Los anti-incentivos también son de utilidad, por ejemplo la suspen- 
sión de la licencia de conducción al negarse a contestar. 


Brewer (2002) afirma que la ausencia de respuesta y el muestreo en dos fases 
están relacionados de la siguiente manera: la forma más sencilla de tratar con la 
ausencia de respuesta es tratando a la muestra de respondientes como si éstos 
constituyesen la muestra objetivo, o equivalentemente como si la población de 
respondientes efectivo y no respondientes estuvieran gobernados por la misma 
estructura de probabilidad. De esta manera, la muestra objetivo es tratada como 
la muestra de la primera fase y el conjunto de respondientes efectivos es tratada 
como la submuestra de la segunda fase. 


Sárndal € Lundstróm (2004) menciona que este enfoque comienza con el supuesto 
de que la distribución de las respuestas es conocida (aunque en la práctica no es 
así). Esto implica que las probabilidades de respuesta de primer y segundo orden 
están dadas por 


Pr(k € r|S) =0% Pr(k,l € r¡S) = 0x1 (12.5.1) 


las cuales se asumen conocidas y donde r denota el grupo de respondientes efectivos 
y S la muestra total conformada por respondientes y no respondientes. De esta 
forma es posible calcular las ponderaciones combinadas (nótese la similitud con la 
construcción de la cantidad Tí) (1/71) x (1/01) y calcular el siguiente estimador 
insesgado de dos fases 


NE (12.5.2) 


Como las probabilidades de respuesta 0 son desconocidas, entonces el anterior 
estimador es imposible de calcular. Por tanto, para hacerlo operacional, se debe 
encontrar una estimación de estas. Suponga que existen características de informa- 
ción auxiliar disponibles que permiten obtener un estimador (o también predictor) 
de esta probabilidad, denotado como 0. Por lo tanto, se ha obtenido un estima- 
dor de dos fases que contempla la ausencia de respuesta reemplazando 0; por 0% 
y dado por 


A Uk 
bt, = > _ 12.5.3 
Ñ ker 0% : 


Existen distintas formas de encontrar estimadores 0%, algunos de ellos son discu- 
tidos en el capítulo 9 de Sárndal, Swensson $: Wretman (1992). 


SUtilizar un sistema CATI (entrevista telefónica asistida por computador, por sus siglas en 
inglés) mejora la precisión de los datos. 


12.6. Marco y Lucy 439 


12.5.3 Muestreo en ocasiones 


En muchos estudios de investigación se seleccionan muestras de la misma población 
de manera repetida en el tiempo y la misma característica de interés se mide en 
cada ocasión. De esta manera, el comportamiento estructural de ésta puede ser 
medido a través del tiempo. El muestreo en dos ocasiones considera una población 
finita y en la primera ocasión, se selecciona una muestra S¿ mediante un diseño 
de muestreo p,(-) y se mide la característica de interés y. En la segunda ocasión se 
seleccionan dos muestras independientes, una muestra traslapada, S¿, proveniente 
de la anterior muestra S¿ y otra no traslapada, S, tomada del complemento de 
la primera muestra Sí. En el capítulo 9 de Sárndal, Swensson éz Wretman (1992) 
se aborda la teoría para el tratamiento de la anterior configuración de muestreo. 


12.6 Marco y Lucy 


A continuación se utiliza la población de empresas del sector industrial para ejem- 
plificar el desarrollo del muestreo en dos fases y cómo éste permite mejorar bastante 
la estrategia de muestreo. En esta sección se contemplan tres configuraciones que 
muestran claramente escenarios difíciles pero comunes en la vida práctica, en don- 
de las encuestas y los marcos de muestreo sufren de imperfecciones y es necesario 
afilar las herramientas estadísticas para poder tratar con estos problemas. 


Primera configuración: estratificación 


En este primer escenario se considera que el marco de muestreo es deficiente y sólo 
contempla la ubicación e identificación de las empresas del sector industrial. Bajo 
este marco de referencia se supone que no se conoce absolutamente nada acerca 
del comportamiento estructural de la población a través de las variables de interés: 
Ingreso, Gastos e Impuestos declarados durante el año pasado. 


Suponga que el investigador conoce que el sector industrial está dividido en tres 
niveles. Grande, Mediano y Pequeño y que además el comportamiento de las ca- 
racterísticas de interés es sustancialmente diferente en cada uno de los anteriores 
subgrupos poblacionales. Si las bondades del marco de muestreo llegaran hasta 
determinar la clasificación de cada empresa a alguno de los anteriores tres estra- 
tos, entonces podría utilizarse un diseño de muestreo estratificado para mejorar la 
estimación. Sin embargo, suponga que no es posible contar con tal información a 
nivel poblacional. Sin embargo, existen algunas entidades de origen privado que 
venden esta información a un precio razonable. La mala noticia es que, debido a 
conflictos de intereses, no entregan la lista completa sino un subconjunto de 1000 
de las 2396 empresas del sector industrial. La buena noticia es que el investigador 
puede determinar las mil empresas a su gusto. 


Bajo la anterior configuración, es posible utilizar un diseño de muestreo bifásico 
de la siguiente manera: en la primera fase, seleccionar una muestra de tamaño 
Na = 1000 y obtener la información del nivel para cada una de las empresas 
incluidas en esta primera muestra. Para esto, se utiliza la función S.SI del paquete 
TeachingSampling para obtener la primera muestra que será llamada como Fasel. 
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> data(Lucy) 
> N <- dim(Lucy) [1] 
> n <- 1000 
> sam <- S.SI(N,n) 
> Fasel <- Lucy[sam,] 
> attach(Fasel) 
> Fasel 

ID Ubication Level 
2 ABO02 c1k2 Small 
3 ABO0O3 c1k3 Small 
4 ABOO4 c1k4 Small 
1577 ABO49 c16k92 Medium 
1579 ABO58 c16k94 Medium 
1581 ABO76 c16k96 Medium 
2315 ABO98 c25k38 Big 
2318 AB1028 c25k41 Big 
2320 AB1038 c25k43 Big 


La muestra realizada en la primera fase es de tamaño 1000 y está dividida en 
cada uno de los tres estratos. Por otro lado, en la segunda fase, y acudiendo a 
la información de pertenencia a los estratos, se selecciona una segunda muestra 
estratificada de tamaño n = 400 y para esto se configura la función S.STSI del 
paquete TeachingSampling. 


nal <- summary(Level) [[1]1] 
na2 <- summary(Level) [[21] 
na3 <- summary(Level) [[3]1] 
nal; na2; na3 
[1] 33 [1] 298 [1] 669 
n.a <- c(nal,na2,na3) 


VWVWvyv 


ni <- 30 
n2 <- 120 
n3 <- 250 
n <- c(ni,n2,n3) 


VWvVvoyv 


> sam <- S.STSI(Level,n.a,n) 
> data <- Fasellsam,] 


> data 

ID Ubication Level Zone Income Employees Taxes SPAM 
510 AB1685 c6k15 Small B 235 15 2.0 no 
1396 AB417 c15k10 Small C 149 27 "0.5 yes 
377  AB1564 c4k80 Small B 300 66 3.0 no 
859 AB2010 c9k67 Small C 451 79 9.0 yes 
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1998 AB621 c22k18 Medium D 590 55 16.0 yes 
2187 AB846 c24k9 Medium E 750 51 28.0 no 
2002 AB626 c22k22 Medium D 580 109 16.0 no 
2390 AB957 c26k14 Big E 1220 163 63.0 no 
2333 AB1123 c25k56 Big A 1020 133 50.0 yes 
2342 AB118 c25k65 Big A 1118 109 59.0 no 


> attachídata) 


La submuestra realizada en la segunda fase es de tamaño 400 y está dividida 
en cada uno de los tres estratos. Una vez conseguida la información, se procede a 
estimar las cantidades de interés. Para esto se utiliza la función E.STSI del paquete 
TeachingSampling, la cual arroja las estimaciones expandidas a la muestra de la 
primera fase. Para expandirlas a la población basta con multiplicarlas por el inverso 
de la probabilidad de inclusión de la primera muestra] 


Los resultados se muestran a continuación. 


> estima <- data.frame(Income, Employees, Taxes) 
> E.STSI(Level,n.a,n,estima) 

> dim(E.STSI(Level,n.a,n,estima)) 

[11 344 


> (2396/1000)*E.STSI(Level,n.a,n,estima)Í[1,,] 


N Income Employees Taxes 
Big 79.068  99130.19 11116.96 6024.982 
Medium 714.008 472709.00 56912.39 15809.327 
Small 1602.924 449870.24 81729.89 6020.583 


Population 2396.000 1021709.42 149759.24 27854.891 


Nótese que esta estrategia es recomendable cuando se desean obtener estimaciones 
eficiente por subgrupos poblacionales. 


Segunda configuración: selección proporcional al tamaño 


En este apartado suponga que se tienen las mismas condiciones que en el escenario 
anterior. Sin embargo, el interés ahora no se centra en la estimación eficiente de los 
totales de la característica de interés dentro de algunos subgrupos poblacionales 
sino en la estimación eficiente del total poblacional de las características de interés. 
De esta manera, se desea ejecutar un diseño de muestreo aleatorio simple, en una 
primera etapa, para poder incorporar información auxiliar en la segunda etapa. 
Como antes, se utiliza la función S.SI del paquete TeachingSampling para la 
selección de esta primera muestra. 


“Esta operación solamente tiene sentido para las estimaciones de los totales y no para las 
varianzas ni sus estimaciones. Por lo tanto, estas se deben obviar puesto que no conducen al 
verdadero valor de las cantidades mencionadas. 
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library (TeachingSampling) 
data (Lucy) 

N <- dim(Lucy) [1] 

na <- 1000 

sam <- S.SI(N,na) 

Fasel <- Lucy[sam,] 
attach(Fasel) 


VWVVvyvVvyvVv V oV 


Una vez se ha seleccionado la muestra, el investigador se ve forzado a recopilar 
información auxiliar que le permita mejorar la estrategia de muestreo. En este caso, 
el investigador conoce que la característica Ingreso está relacionada directamente 
con las características de interés Número de Empleados e Impuestos. Además, 
es fácil conseguir tal información, puesto que, al igual que en la configuración 
anterior, existe una entidad que suministra dicha información aunque sólo para 
1000 empresas por términos de cláusulas de confidencialidad. De esta manera, el 
investigador recopila los datos de Ingreso para las 1000 empresas incluidas en la 
muestra de la primera fase y toma la decisión de mejorar la estrategia de muestreo 
por medio de la incorporación de esta información auxiliar en el diseño de muestreo. 
En este orden de ideas, él decide utilizar un diseño de muestreo proporcional al 
Ingreso de las empresas. Para la selección de la submuestra se utiliza la función 
S.PPS del paquete TeachingSampling. La submuestra es de tamaño m = 400 y se 
selecciona con reemplazo. 


n <- 400 

res <- S.PPS(400,Income) 

sam <- res[,1] 

pk.s <- res[,2] 

sum (pk. s) 

[1] 0.571502 

> data <- Fasellsam,] 

> attach(data) 

> estima <- data.frame(Income, Employees, Taxes) 


VWMVvyvoy 


Para la estimación del total poblacional de las características de interés se procede 
con la función E.PPS del paquete TeachingSampling, la cual provee la estimación 
expandida en la muestra de la Fase 1. Para expandir los resultados a la población, 
una vez más, basta con multiplicar estos resultados por el inverso de la probabilidad 
de inclusión de la primera fase dada por 2396/1000. 


> (2396/1000)*E.PPS(estima,pk.s)[1,] 
Income Employees Taxes 
1043671.24 148385.29  30030.74 


Tercera configuración: estimación de calibración 


Para este último escenario, suponga que el investigador selecciona una muestra 
aleatoria simple para la primera fase de muestreo con el fin de recolectar informa- 
ción que le permita mejorar la estrategia de muestreo. 
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library(TeachingSampling) 
library (sampling) 
data(Lucy) 

N <- dim(Lucy) [1] 

na <- 1000 

sam <- S.SI(N,na) 

Fasel <- Lucy[sam,] 
attach(Fasel) 


VMVVWVvVOvVvovVvoyV oy 


Suponga ahora, que la entidad que provee la información, está dispuesta a brindar 
para cada una de las empresas incluidas en la muestra de la primera fase, no sólo 
la información del Ingreso sino que también la información acerca del Número de 
Empleados. De esta forma, el investigador propone seleccionar una submuestra 
mediante un diseño de muestreo aleatorio simple y combinarlo con un estimador 
de calibración mediante el método de Raking. 


t.ax <- c(1000, sum(Income), sum(Employees)) 
n <- 400 

sam <- S.SIí(na,n) 

data <- Fasellsam,] 

attach(data) 


VWMVWvyvoy 


Para estimar los resultados expandidos a la primera fase se utiliza la función 
calib del paquete Sampling, la cual proporciona las ponderaciones calibradas 
para la Fase 1. De la misma manera, estos resultados se expanden a la población 
mediante la multiplicación del inverso de la probabilidad de inclusión de la primera 
muestra. 


y.as <- data.frame(Income, Employees, Taxes) 

x.as <- cbind(1,Income, Employees) 

pi.ak <- rep(n/na,times=n) 

w.ak <- calib(x.as, d=1/pi.ak, t.ax, method="raking") 


VWvVWvyv 


> tc.a < t(w.ak/pi.ak)/*%as.matrix(y.as) 
> (2396/1000)*tc.a 

Income Employees Taxes 
[1,] 1015890 150610.2 27994.88 


Comparación de resultados 


Aunque a primera vista, parecería que los resultados no tan cercanos a los totales 
poblacionales verdaderos, nótese que en particular para la características de interés 
Ingreso se obtiene una ganancia amplia comparado con un diseño de muestreo 
aleatorio simple. Nótese también que en este caso, el estimador de calibración 
arroja mejores resultados. 
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Tabla 12.1: Estimaciones realizadas bajo distintos escenarios para el muestreo 


bifásico. 


Método Total poblacional Total estimado  Desv.% 


Estratos 28654 27854 -2.79 
Proporcional 28654 30031 4.81 
Calibración 28654 27995 -2.29 


12.7 Ejercicios 


12.1 Suponga un estudio longitudinal que plantea tres encuestas, tipo semipanel, 


12.2 


en diferentes tiempos. Para la tercera medición, se utilizó un diseño de mues- 
treo con una rotación del 20% para las siguientes posibles especificaciones: 


De tamaño n; que fue seleccionada sólo de la muestra de la primera 
medición. 
De tamaño n;2 que fue seleccionada de las muestras de las mediciones 
uno y dos. 


De tamaño n123 que fue seleccionada de las muestras de las tres medi- 
ciones. 


De tamaño n23 que fue seleccionada de las muestras de las mediciones 
dos y tres. 


De tamaño ng3 que fue seleccionada de la muestra de la tercera medición. 


. Dibuje un diagrama que ilustre la rotación de la muestra en las tres me- 
diciones y los tamaños relativos de las cinco configuraciones anteriores. 


. Proponga una fórmula para la estimación del total poblacional de la ca- 
racterística de interés en la tercera medición para las cinco configuraciones 
anteriores. 


. Sin escribir ninguna fórmula estadística para las varianzas, indique en 
cuál de estas configuraciones y por qué, induce mayor eficiencia en las 
estimaciones. 


Suponga un diseño de muestreo en dos fases. En la primera fase, se seleccionó 
una muestra aleatoria simple sin reeemplazo s, de tamaño n, = 150. En esta 
fase se levantó la información de una característica de interés x. En la segunda 
fase, se decidió seleccionar una muestra s, mediante un diseño de muestreo 
Poisson con tamaño de muestra esperado n¿ = 10, mediante probabilidades 
de inclusión proporcionales a la característica de información auxiliar. La 
información para la muestra de la segunda fase se encuentra consolidada en 


la tabla 


a. Calcule una estimación insesgada para el total poblacional de y, teniendo 
en cuenta que el total de la característica de interés en la muestra de la 
primera fase es 4060. 
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b. Utilice la siguiente expresión para calcular el respectivo coeficiente de va- 


riación estimado 


Tabla 12.2: Tabla del ejercicio 12.2 


y x 
2653 33 
17949 247 
1060 12 
1324 12 
2223 18 
2593 30 
2216 20 
13205 138 
3475 35 
7072 62 


4623 47 


12.3 Asuma que la muestra de la segunda fase del ejercicio anterior se obtuvo 
mediante muestreo PP'T. Calcule una estimación insesgada para el total po- 
blacional de y y calcule el respectivo coeficiente de variación estimado. 


12.4 Suponga un diseño de muestreo en dos fases. En la primera fase, se seleccionó 
una muestra aleatoria simple sin reeemplazo s¿ de tamaño na = 160. En esta 
fase se estratificó la población en cuatro subgrupos, cada uno de tamaño 40. 
En la segunda fase, se decidió seleccionar una muestra aleatoria estratificada 
de 20 elementos en cada estrato y se observó la característica de interés. Los 


resultados obtenidos se muestran a continuación: 


Estrato h Ys, il 
1 17.05 19945 
2 19.75 24179 
3 22.40 28359 
4 31.25 42829 


a. Calcule una estimación insesgada para el total poblacional de y. 


b. Obtenga una estimación para la varianza y reporte el respectivo coeficiente 


de variación estimado. 


c. Obtenga una estimación para la varianza y reporte el respectivo coeficiente 
de variación estimado, suponiendo que la muestra hubiese sido obtenido 
de un muestreo, en una sola fase, aleatorio estratificado de tamaño n = 80. 


Capítulo 13 


Encuestas multi-propósito 


Si los estadísticos teóricos hacen caso omiso al reto de enfrentar las encues- 
tas multi-propósito, entonces el vacío existente entre ellos y los estadísticos 
prácticos se hará cada vez más grande. El diseño y análisis de encuestas 
multivariantes debe ser una de las próximas áreas de mayor investigación. 


T. M. F. Smith (1976) 


Este capítulo reúne una introducción a la motivación de investigación que hizo 
uno de los personajes más influyentes en la escena estadística mundial, el profe- 
sor Smith (Smith 1976), quien discutió acerca de los fundamentos de la teoría del 
muestreo, desde sus primeros años hasta las últimas tendencias en cuanto a pre- 
dicción y estimación en poblaciones finitas. En sus múltiples artículos, este autor 
afirmó que en el muestreo los problemas univariados (estimación de un parámetro 
desconocido para una sola característica de interés) se encuentran en unas cuantas 
ramas de aplicación, limitadas a encuestas de opinión pública, muestreo industrial 
de aceptación y muestreo en auditorías. Sin embargo, la gran mayoría de encues- 
tas que se realizan alrededor del mundo son de tipo multi-propósito (estimación de 
varios parámetros desconocidos para varias características de interés). El profesor 
Smith tuvo en cuenta la limitación que presentan los grandes clásicos del mues- 
treo al no considerar este tipo de estudios ni incluirlos en sus páginas y llamó la 
atención a los teóricos del muestreo a realizar investigación formal en este tipo de 
tópicos como lo muestra la motivación al principio del capítulo. 


13.1 Introducción 


La mayoría de aplicaciones en encuestas por muestreo involucran múltiples va- 
riables de estudio. En este breve apartado, se presenta un marco de referencia 
para la estimación conjunta de los parámetros de interés, bajo algunos diseños 
de muestreo. Con respecto al diseño de muestreo, en Holmberg (2002a) y Holm- 
berg (2002b) se ha desarrollado la teoría pertinente para la sección de muestras 
probabilísticas en encuestas multi-propósito, y con respecto a la estimación multi- 
paramétrica, en Gutiérrez (2009a) se propone un sistema general de estimación 
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basado en resultados clásicos de la teoría de los modelos lineales y del álgebra 
lineal. 


El propósito de un estudio por muestreo está enfocado en obtener información 
acerca de una población finita particular por medio de la estimación de paráme- 
tros poblacionales como medias, totales o proporciones o razones. Sin embargo, 
la mayoría de encuestas no involucra una sola característica sino varias carac- 
terísticas de interés. Los libros clásicos de muestreo parecen omitir el hecho de 
que raras veces se planea una encuesta con el fin de estimar un sólo parámetro 
y la teoría desarrollada por los investigadores del muestreo está enfocada en la 
búsqueda de estrategias de muestreo que intentan estimar un parámetro. Existen 
muchas ventajas desarrolladas en estos tópicos, como se vio en los capítulos ante- 
riores; sin embargo, todas están motivadas bajo el supuesto de que el investigador 
está interesado en la estimación de un sólo parámetro. Como lo afirma Holmberg 
(2002a), «una encuesta típica en el sector económico involucra varias característi- 
cas de interés y varios parámetros objetivos... con múltiples parámetros de interés 
y múltiples requerimientos de precisión, el estadístico debería escoger un diseño 
de muestreo que tenga en cuenta las anteriores características». 


Una encuesta puede ser divida en dos etapas: la etapa de diseño y la etapa de es- 
timación. El trabajo de Anders Holmberg durante la década pasada está enfocado 
en la búsqueda de un diseño de muestreo que induzca probabilidades de inclusión 
desiguales y que sea óptimo en el sentido de que un haya un aumento significa- 
tivo en la precisión de cada característica de interés. Este capítulo está enfocado 
en resumir las propuestas de diseño de muestreo y divulgar una posible solución 
al problema de la estimación multi-paramétrica por medio de un acercamiento 
matricial para brindar al lector un enfoque exhaustivo de estimación conjunta en 
muestreo. Aunque los resultados de este capítulo son simples, éstos ofrecen una he- 
rramienta poderosa para el planeamiento de estrategias de muestreo en encuestas 
multi-propósito. En primera instancia, se propondrá el enfoque de estimación en el 
caso de contar con múltiples características de información auxiliar. Más adelan- 
te, se resumirán los resultados de investigación de Holmberg en cuanto al diseño 
de muestreo de una estrategia que involucra varias características de interés. Por 
último, el capítulo cierra con un ejemplo numérico que devela el enfoque matricial 
y sus ventajas en encuestas multi-propósito. 


13.2 Estimación de varios parámetros 


Suponga que la encuesta involucra el estudio de Q características de interés. Ásuma 
que el k-ésimo elemento (k € U) está asociado a un vector de Q características 
de interés, yx = (Yi)... ¿Y Q) cuyos valores son desconocidos para la población 
finita. De esta manera, la siguiente matriz será llamada la matriz de interés. 
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Yi Y1i2 --**+ Y1iQ 
Yy = Yk1 Yk2 --* YkQ S ( yl yo... y2 ) (13.2.1) 
YN1 YN2 -** UNQ 


Note que la entrada yyy se refiere al valor de la q-ésima característica de interés en 
el k-ésimo elemento, con k € U y q=1,...,Q. En un contexto de inferencia basa- 
da en el diseño de muestreo, y? no es considerado como un vector aleatorio, puesto 
que sus componentes son considerados como parámetros fijos aunque desconocidos. 
De esta manera, los valores de cada característica de interés no son necesariamente 
continuos como el ingreso, el peso o la estura sino también discretos como indica- 
dores de subgrupos poblacionales como dominios, estratos o post-estratos. De esta 
manera, la matriz Y yy puede ser vista como una matriz de valores mixtos. 


El objetivo es estimar los (2 componentes del vector de totales definido por la 
siguiente expresión 
t= (t1,t2,...,to) = Yyln, (13.2.2) 


donde 1y = (1,1,...,1)yx1 Y ta = neu Yha es el total poblacional de la q-ésima 
característica de interés. Cuando la muestra de tamaño n es seleccionada, entonces 
Ykg es observado (k € S) y es posible definir la siguiente matriz 


ya Y12 +... YiQ 
Ys=| Y Yr2 -.- Yrq |- (13.2.3) 
Yn1  Yn2 «.- YnQ 


Nótese que cuando s = U, Y yy = Y,. De esta manera, la matriz de probabilidades 
de inclusión está definida por la siguiente expresión 


TI = diag(r;,T2,..., Tn), (13.2.4) 


En este orden de ideas, el estimador de Horvitz-Thompson del vector de totales t 
se define como 


tr A unta a e y e Y HL (13.2.5) 
a PO AA O Dres Yra/Tr es el estimador de Horvitz- 


Thompson de t¿. Es fácil probar que t, corresponde a un estimador insesgado 
para t, y su matriz de varianzas está dada por 


V(tr) = Eltr — t) (tr —4). (13.2.6) 


2 


Nótese que, si N > q, entonces V(t,) será una matriz simétrica y definida positiva 


cuyo elemento qq! es 
kg Ylq! 
Y OY Ay 2 aL, (13.2.7) 
Tk TI 
kE U 1€U 
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con Az, = Tp — TpT]. Si s 4 U es imposible calcular el valor de la anterior 
expresión. Sin embargo, si n > q, la varianza puede ser estimada mediante una 
matriz simétrica y definida positiva V(t 7) cuyo elemento qq es 


NINE Ar Yi Yig (13.2.8) 


T T 
kes tes "el Tk TI 


En algunos casos, el requerimiento de la encuesta es la estimación del vector de 
medias poblacionales dado por 


y =—t. (13.2.9) 


Por lo tanto, un estimador insesgado para y es 


1 
Y rr = tr, 13.2.1 
Y => (13.2.10) 


cuya matriz de varianzas será estimada insesgadamente por + V (tr). si el tamaño 
poblacional es desconocido, entonces puede ser estimada insesgadamente usando 
los principio del estimador de Horvitz-Thompson, tal que 


Ny =1,10*1,. (13.2.11) 


Note que la eficiencia computacional podría aumentarse con la incorporación de 
este enfoque matricial puesto que la estimación de varios parámetros de interés se 
realiza mediante una sola operación algebraica. 


13.3 Algunos diseños de muestreo 


En esta sección se introducen algunos ejemplos de estimación de varios parámetros 
de interés bajo los diseños de muestreo más comunes en la teoría. 


Resultado 13.3.1. Bajo el diseño de muestreo Bernoulli, el vector de totales t es 
estimado insesgadamente por 


o 


1 
En = —Y%1, (13.3.1) 
T 


y su matriz de varianzas es estimada insesgadamente por 


V(tr) = E ( ES 1) Y Y. (13.3.2) 
TAT 
Resultado 13.3.2. Aunque el diseño de muestreo aleatorio simple sin reempla- 
zo no es el más utilizado en la práctica, sí es utilizado en las últimas etapas de 
muestreo en diseños complejos. Bajo este diseño de muestreo t es estimado inses- 
gadamente por 


E 


e de (13.3.3) 
y su matriz de covarianzas es estimada insesgadamente por 


V(,) = a (1 E y) S,, (13.3.4) 
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con S,, la matriz de covarianzas de las característica de interés calculada con las 
observaciones recolectadas en la muestra seleccionada. Por otro lado, y es estimada 


insesgadamente por 


15 1 
N n 
y su matriz de covarianzas es estimada insesgadamente mediante la siguiente ex- 
presión 


V(9.) = +V(tr). (13.3.6) 


13.3.1 Estimación en dominios 


Si los requerimientos de la encuesta están relacionados con la estimación del 
tamaño absoluto de un dominio o del total de alguna o varias características 
de interés en tal dominio, entonces se propone la siguiente construcción meto- 
dológica. Suponga que la población está particionada en D dominios tales que 


U=U,,...,Ug,... Up. Entonces, se define la matriz indicadora de dominios 
como 
211 as 21d 5 21D 
Z= Zk1 .- Zkd <.. ZkD (13.3.7) 
¿n1 ¿nd 2nD 


donde el elemento 


1 sike€eU,a, 
Zhd = js ay (13.3.8) 
O en otro caso 


El vector de tamaños absolutos del dominio d está dado por 


Na = (NV, Na, ..., Np)' (13.3.9) 
donde 
Na= DD da (13.3.10) 
keU 


N¿ es estimado insesgadamente por el estimador de Horvitz-T'hompson de la si- 
guiente manera 
Na = (Ni, Ño,..., Np) =Z'11*1,, (13.3.11) 


su matriz de varianzas es estimada insesgadamente por V(Ña), la cual está definida 
análogamente a (13.2.6). 


En muchas ocasiones se requiere de la estimación de los totales de características 
de interés sobre todos los dominios. De esta forma, el total de la q-ésima variable 
sobre todos los D dominios de interés está dado por 


ta=Ca bosta (13.3.12) 
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y una forma de estimarlo está dada por la siguiente expresión 


Cagr = (Ergm» L2qn, --) EDqn)' = (y “lo OZ) *1, (13.3.13) 
En donde, y? denota la q-ésima columna de la matriz Ys, 1p = (1,...,1)'b1 y 


O denota el producto matricial de Hadamard. 


Resultado 13.3.3. Bajo el diseño de muestreo aleatorio simple sin reemplazo, 

el estimador de Horvitz-Thompson para el vector de tamaños absolutos de los 

dominios y para el total de la q-ésima característica de interés en todos los D 
dominios están dados por 

Ña = (N/m)Z'1,, (13.3.14) 

tagr = (N/n)J(y%Lp O Z)1,. (13.3.15) 


respectivamente. 


13.3.2 Estimación en diseños estratificados 


Para diseños estratificados se tiene el siguiente marco de referencia. La población fi- 
nita U se divide en H grupos o estratos mutuamente excluyentes U;,...,Up....,Up. 
Note que antes de la recolección de los datos, se conoce la membresía de cada ele- 
mento a cada estrato. De esta manera, se selecciona una muestra aleatoria en todos 
y cada uno de los HA estratos existentes en la población finita. Es necesario realizar 
un ordenamiento matricial en las matrices para obtener estimaciones usando los 
principios del estimador de Horvitz-Thompson estimator. Por lo tanto, la matriz 
Y. se particiona en H bloques de la siguiente manera 


Y; 
Ya Y, ; (13.3.16) 

Yy 
donde Y, es una submatriz que contiene los valores de cada característica de 
interés para los elementos que pertenecen al h-ésimo estrato, con h = 1,...,H. 


Note que Y, € RF?XQ y Y, € R"*9, Definido n = (n;,...,ny), entonces 
n=lg =n1+:::+Np. 


Como de costumbre, el objetivo es la estimación de los (2 componentes del vector 
de totales en el h-ésimo estrato dado por 


tr = (tin, tan, ton) = Y 1n,,> (13.3.17) 


Donde N,, es el tamaño del h-ésimo estrato. El total poblacional puede ser escrito 
como 


H 
t =(t1,t2, tol = Y ta, (13.3.18) 
h=1 


donde t, es estimado insesgadamente por la siguiente expresión 


tu = lr birston == is (13.3.19) 
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con np el tamaño de la muestra en el h-ésimo estrato. Por supuesto, se asume 
independencia sobre el diseño de muestreo implementado en cada estrato. De esta 
forma el total poblacional está dado por 


to nte Is, le (13.3.20) 
y su matriz de varianzas puede ser escrita como 
H 
Vsr(t,) = Y Va(tr) (13.321) 
h=1 
la cual es estimada insesgadamente por 


H 
Vsr(tr) = Y Va (tr). (13.3.22) 


=1 


Resultado 13.3.4. Bajo el diseño de muestreo aleatorio estratificado, el estimador 
de Horvitz-T'hompson para el total poblacional es 


tr=» —"Y1a, (13.3.23) 


H 
ES N? n 
Versi(tr) =» 2 ( = 5) Se (13.3.24) 


con Sy, la matriz de varianzas de las características de interés en la muestra 
perteneciente al h-ésimo estrato. 


13.4 Información auxiliar 


Asuma que el k-ésimo elemento (k € U) está asociado con un vector de P carac- 
terísticas de información auxiliar, contenidas en un vector xx. Los valores de este 
vector Xp = (%x1,..., UP) se suponen conocidos para la población finita. De esta 
manera se tiene la siguiente matriz 


T1i1  TI2 T1P 
Xu = Li Tk2 ... TkpP == ( xo ox ... xP ) (13.4.1) 
N1 IN2 eo INP 


que será llamada la matriz de información auxiliar. 
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13.4.1 Algunos relaciones 


Es posible asumir que existe una relación lineal explícita entre cada uno de los 
componentes de las características de interés y las características de información 
auxiliar mediante un modelo de superpoblación €£,, q =1,...,Q, tal que 


Yl= X PM4e. 
(Nx1) (WxPKPxi (Wx1) 


El modelo €, tiene las siguientes propiedades: 
Ez (e) =0 
Ente”) (13.4.2) 
Varg, (e?) = Ey. 
», establece la estructura de varianza del vector e%. Nótese que las anteriores 
relaciones pueden reescribirse mediante un modelo conjunto £ tal que 


=X Bree. 
(NxQ)  (NxPlkrPxq) (WxQ) 


Este enfoque sugiere que Y, X y e son matrices aleatorias (Gupta dz Nagar 1999) 
definidas en el modelo de superpoblación £, para el cual Y y y Xy se suponen meras 
realizaciones de las anteriores matrices aleatorias. Más precisamente, el modelo £ 
tiene las siguientes características: 


Ede)= 0 

ele) Pa 
v js $ di (E y Yo) (13.4.3) 
argle T NON) 104921) 42)-++-) 4Q 


Note que el subíndice £ se refiere a la esperanza bajo la estructura particular que 
ese modelo de superpoblación induce. En situaciones prácticas, es común asumir 
Ny = o¿diag(C1q, ..<¿Cp1g), donde Cry = fa[lErts DP) y f¿ es una función de 
valor real. 

El problema de estimar el vector de parámetros 8 se considera brevemente. Sea 
D(X) una medida de dispersión invariante ante traslaciones tal que D(X + K) = 
D(X), con K una matriz de constantes. Entonces al estimación de 8 corresponderá 
a aquel vector que minimize la anterior medida de dispersión. Particularmente, 
D(+-) podría estar dada por la varianza total multivariante definida como 


traza(Y — XB) (Y —- XB). (13.4.4) 
Con la anterior elección y recurriendo al método de mínimos cuadrados, (13.4.4) 
es minimizada por la siguiente expresión 
B = (B,,B,...,Bo), (13.4.5) 
donde 
B, = (Xy, Xu) (Xy Y, Yu). (13.4.6) 


Nótese que para poder calcular esta estimación, se deben conocer todos los va- 
lores poblacionales tanto de la matriz de características de interés como de las 
características de información auxiliar. 
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13.4.2 Información tradicional 


En aplicaciones reales sólo se selecciona una muestra y no es posible calcular B. 
Por lo tanto, este valor debe ser estimado recurriendo a la información disponible 
en la muestra aleatoria seleccionada o realizada. Puede ser demostrado que la 
siguiente expresión corresponde a un estimador asintóticamente insesgado para B 


B = (B,,B»,..., Bo), (13.4.7) 
donde LS 
B, = (XA, 'X,) (XA, Y), (13.4.8) 


qa=1,...,Q, X; similarmente definido como en (13.2.3) y 


A, = 1,112. (13.4.9) 


Así, el estimador múltiple de regresión general para el vector de totales 
poblacionales se define como 
trgreg = Evo + B'(tx — he (13.4.10) 


con, ty, txr los estimadores de Horvitz-Thompson de ty y tx, respectivamente. 
Nótese que B, también puede ser escrito como 


B, == (X/D,X,) XD, Y, (13.4.11) 
A 
= bz so) 6 op) (13.4.12) 
kEs kEs 
donde D, = diag(Af,..., AZ) y Af son funciones de valor real de las probabilidades 


de inclusión y de la información auxiliar. Note también que el modelo £ sirve 
como un vehículo para encontrar un estimador de regresión general apropiado. 
Una vez que éste se encuentra o se define, el modelo no será útil para ningún 
otro propósito de muestreo. Las propiedades del estimador múltiple de regresión 
general (esperanza y varianza) también se definen desde una perspectiva de infe- 
rencia basada en el diseño de muestreo. 


Algunos casos particulares 


Los siguientes escenarios se enuncian bajo un marco de referencia general que 
resultan ser casos especiales del estimador múltiple de regresión general; en la 
mayoría de los casos su particularidad está inducida por la escogencia de los valores 
de Ak. 


e SiP=1,xp = Tp, y A = (Tx) *, entonces se tiene el estimador de razón 
para cada característica de interés. 


e SiP=2, xx = (1,2%), y Ar = (rx) ?, entonces se tiene el estimador de 
regresión clásico. 
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e Si P = M(number of post-strata), Xy = 0% = (0,...0,1,0,...,0/, y AL = 
(rx)7*, donde 8; representa M variables indicadoras (cada indicadora re- 
presenta la membresía del elemento poblacional al post-estrato en cuestión), 
entonces tenemos el estimador de post-estratificación. 


Nótese que el estimador múltiple de regresión general puede también escribirse de 
la siguiente manera 


Errgreg = (W'O Y?)1n, (13.4.13) 
donde 
ww wi 
W=| w. wz... we | =(w wo... w). (13.4.14) 
Up wr 
Se tiene que w% = (wj,...,wf,...,w2)' es un vector de pesos o ponderaciones 
tales que 
: -1 
wi = o E o (E so) dotes (13.4.15) 
k 
kes 


A estos pesos, como se estudió en capítulos anteriores, se le conocen con el nombre 
de ponderaciones de calibración y ellos reproducen con exactitud el vector de 
totales t, cuando son aplicados a la información auxiliar disponible. Entonces, W 
es llamada matriz de calibración. No es difícil mostrar que la siguiente relación 


S wixp = Xw% = tx, (13.4.16) 
keS 
se satisface para cada q = 1,...,Q. Es interesante observar que t,, resulta calibrado 
bajo diferentes escogencias de los pesos w%. Por otra parte, note que 
w“=11 11, +A,¿X, (X,A¿Xs) * (tx — Er) (13.4.17) 


Cuando se trata de estimación post-estratificada se debe recurrir al uso de una 
inversa generalizada, acudiendo a la propiedad de que el estimador múltiple de 
general de regresión es invariante ante cualquier inversa. 


13.4.3 Información auxiliar conjunta 


El método de mínimos cuadrados no es el único camino para obtener un estimador 
múltiple de regresión general. En esta sección, se supone la existencia de una matriz 
de información conjunta cuya estructura algebraica está definida por la siguiente 
expresión 


Yy1 Y12 -+-+** YQ Ti T12 +--. TiP 


Y21 Y22 +++ YQ T21 T722 +-.-. Tap 


V = (13.4.18) 


Un1 Un2 ... YnQ Tn1 Tn2 c.. Tnp 
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El estimador del vector de totales de las características de interés y de las carac- 
terísticas de información auxiliar está dado por ty, el cual está definido como 


tun = VI *1,. (13.4.19) 


De esta forma, suponga que t,,, sigue una distribución normal multivariante con 
media 


E (tur) => (Ey) Exp) = ty, 


y matriz de varianzas definida como 


V (tur) - ( a) Clbyrs bxr) .) 


(ty, tx) V(txr) 


donde V(tyr) se considera una matriz simétrica tal que el j-ésimo elemento de su 
diagonal está dado por la varianza de ty; 


Yjk Y;l 
= A —— —— 
)-E Nauta, 
U 
y el elemento 23, por afuera de su diagonal, está dado por la covarianza de lo ny 


Cnestaye) = 22270 . 


byjm> 


Vias) se define de forma análoga, y C(t (é ll no necesariamente simétrica, es 
tal que el elemento 17 está dado por la covarianza de e ” and Le sá 


a S ik L5l 
C(ty¿T, Ey) = y y Aa 
U 


Siguiendo los resultados de inferencia multivariante para poblaciones con distri- 
bución normal, la distribución condicional de ty, dado tx, sigue también una 
distribución normal multivariante con media condicional dada por 


pS 


Elbrrlter) = ty + Cllyr ta Vb) Hb — ten), (13.4.20) 


Y varianza condicional dada por 


Witt = Vibe En MV TO ii: (13.4.21) 
Note que (13.4.20)) y (13.4.21) son estimados insesgadamente por 


(Eyrrs Esc (V (Er) 7 x — Er) (13.4.22) 
S Er + B(tx — xr) (13.4.23) 


y, 
V(ty) = Víbxr) — Clbxm, tx) (V (Ex) C (Ex, E 5), (13.4.24) 
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respectivamente. Por otra parte, observe que (13.4.22) luce como el estimador 
múltiple de regresión general. Sin embargo, su pendiente, B, sería diferente: mien- 
tras la pendiente del estimador de regresión general está dada por el método de 
mínimos cuadrados, la pendiente de éste último corresponde, según los resultados 
de la inferencia estadística multivariante, a un conjunto de regresiones múltiples 
de X sobre Y. Este estimador del vector de totales de la característica de interés 
debería ser llamado estimador óptimo de regresión general y ha sido estu- 
diado por Cassady éz Valliant (1993) en el contexto de la inferencia basada en 
modelos poblacionales para la estimación del total de una sola característica de 
interés. 


13.5 Diseños de muestreo óptimos 


En esta sección se aborda el problema de la escogencia de la muestra bajo un 
criterio unificado que contemple el comportamiento estructural de cada una de las 
características de interés. Es decir, en la etapa de diseño de una encuesta multi- 
propósito se debe escoger un diseño de muestreo integral y para esto el enfoque de 
Holmbersg será considerado. De esta manera, se puede asumir que en la etapa de 
planeación de la estrategia, es posible contar con la participación de características 
de información auxiliar y con esto es posible asumir algunas posturas acerca de 
la validez de las relaciones estadísticas entre las características de interés y las 
variables de información auxiliar. 


13.5.1 Diseño de muestreo de Holmberg 


Suponga que las características de interés involucradas en la encuestas tienen todas 
la misma importancid|] Bajo este enfoque se presenta a continuación un breve 
resumen del diseño de Holmberg utilizado en encuestas multi-propósito: 


1. Para cada una de las características de interés, el estadístico, el investigador 
o el usuario final debe proponer un diseño de muestreo, p¿(-) (q = 1,...,Q), 
que sea óptimo y tal que el tamaño esperado de muestra sea E(n(S)) =n4. 
Por supuesto, note que cada uno de los Q diseños de muestreo pueden ser 
diferentes; aún más, los tamaños de muestra, en cada diseño propuesto, no 
necesariamente deben ser equivalentes. Recuerde que el enfoque tradicional, 
que no se preocupa por la inclusión de varias características de interés, el 
estadístico debe proponer un sólo diseño de muestreo, el cual se supone que 
es óptimo para todos los parámetros que se deben estimar. 


2. Cada uno de los diseños de muestreo p¿(-) induce un vector de probabilidades 
de inclusión de tamaño N para cada una de los elementos pertenecientes a la 
población finita. Estas probabilidades de inclusión deben tomar la siguiente 
forma (Holmberg 2002), eq. 6) 


Oak 


Tak = No =— 
q q ? 
res Tak 


lPor supuesto, que es posible asumir variantes ante este supuesto y pueden ser consultadas 
en Holmberg (2002b). sin embargo, en este capítulo se asumirá que la encuesta contempla igual 
importancia para todas las características de interés. 


(13.5.1) 


13.5. Diseños de muestreo óptimos 459 


con dq; medidas de tamaño (usualmente, aunque no necesariamente, vin- 
culadas a un modelo de regresión lineal). La característica de «diseño de 
muestreo óptimo> se obtiene si Ty X Oy. Note que si el diseño de muestreo 
óptimo para la q-ésima característica de interés es un diseño de muestreo 
aleatorio simple sin reemplazo, entonces dy; =1 para todo k € U. Por otra 
parte, con la escogencia de 07, = AA donde 07 es una constante y Zgx 
corresponde al valor del k-ésimo elemento para alguna variable auxiliar, o 
una función de muchas variables de información auxiliar, entonces el diseño 
de muestreo óptimo debe ser proporcional al tamaño de 9,r (TPS). Es decir, 
Tgk X zu el 
3. Basado en el criterio de mínima pérdida de eficiencia relativa general (ANOREL, 
por sus siglas en inglés), el tamaño de muestra óptimo para la encuesta multi- 
propósito estará dado por 


s Orev v Tak)” 
5 (1+c)Q + Vev lar ia 


n 


donde 
Q 2 


pz Car 
aq => ED (13.5.3) 
q=1 keU Tak Tak 


y c es el máximo error permitido, bajo el criterio ANOREL, en una escala 
de cero hasta uno. Nótese que en la práctica, ok es desconocido y debe ser 
escrito como una función de las variables de información auxiliar. Holmberg 
(2002b) afirma que el conocimiento subjetivo, la experiencia, o fuentes ex- 
ternas pueden ser usadas para obtener acercamientos al valor exacto de esta 
cantidad. 


4. Una vez que el tamaño de la muestra ha sido calculado, se debe crear un 
sólo vector de probabilidades de inclusión que sea óptimo para todas las 
características de interés. Este vector es inducido por el diseño de muestreo 
de Holmberg, el cual minimiza la pérdida de eficiencia relativa general, está 
dado por la siguiente expresión 


* 
n Oagk 


Soy Ya (13.5.4) 


Tlopt)k = 


5. En la mayoría de los casos, el vector de probabilidades de inclusión resultan- 


te, Tops) = [(Tlopt)1)---> Tlopt)N)', es un vector de probabilidades de inclusión 
desiguales. En esta situación, se debe usar un esquema de selección de mues- 
tras TPT 


13.5.2 Un ejemplo numérico 


En esta sección, se considera un ejemplo del enfoque multi-propósito. En la eta- 
pa de diseño, se escoge un diseño de muestreo óptimo por medio del enfoque de 
Holmberg (Holmberg 2002b) y en la etapa de estimación se implementa el enfo- 
que matricial (Gutiérrez 2009a). Ambas etapas se realizan por medio del software 
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computacional R. Particularmente, se introduce el paquete sampling para la se- 
lección de muestras y la estimación en varios dominios de interés. 


Para este propósito, se considera una población real (la población de municipali- 
dades suizas MU281 disponible en el apéndice B de Sárndal, Swensson éz Wretman 
(1992)). De esta forma, es posible planear una encuesta multi-propósito en donde 
las características de interés y los dominios de interés son provistos de antemano 
y en donde es posible tener cierta clase de creencias acerca del comportamiento 
estructural de la población y acerca de la relación entre las características de 
interés y las de información auxiliar. Nótese que no se quiere presentar un diseño 
de muestreo perfecto, pero más bien uno que ilustre el desarrollo práctico de la 
teoría en una encuesta multi-propósito. Las características de interés son: 


y = P85 (Población en 1985) 
y = RMT85 (Impuestos devengados por los municipios en 1985) 
y = REV84 (Valores de bienes raíces en 1984) 
Las características de información auxiliar son: 
xi = P75 (Población en 1975) 
x = S82 (Número de curules en el consejo de los municipios en 1982) 


Para la estimación por dominios se utiliza la siguiente variable: 
z = REG (indicador de región geográfica) 


Se utilizó el siguiente código computacional para especificar las características de 
la encuesta. 


> library(sampling) 

> data(MU284) 

> MU281 <- MU284[MU284$RMT85 <= 3000,] 
> attach(MU281) 

> Yi <- P85 

> Y2 <- RMT85 

> Y3 <- REV84 

> Xi <- P75 

> X2 <- S82 

> Z <- REG 


Para tener algún grado de certeza acerca de las bondades de la estimación se tienen 
a la mano los totales de las características de interés y de información auxiliar. 


> Ty <- c(sum(Y1),sum(Y2),sum(Y3)) 
> Tx <- c(N,sum(X1),sum(X2)) 


> Ty 

[1] 7033 53151 757246 
> Tx 

[1] 281 6818 13257 


Ahora, suponiendo que la importancia de las tres características de interés es la 
misma, entonces a continuación se describe el enfoque de Holmberg para este caso 
particular: 
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1. En la población MU281, el tamaño poblacional es N = 281. Suponga que el 
estadístico considera que para cada una de las tres características de interés 
el tamaño de la muestra debe ser igual a 100. 

> N <- 281; n <- 100 

2. Asuma que, mediante conocimiento de fuentes externas, el estadístico asume 
que los mejores diseños de muestreo, en el sentido óptimo, son: Para y, un 
diseño de muestreo TP'T con 1] x ne para ya, un diseño de muestreo TP'T 
con Tax X 11% y por último para y3, un diseño de muestreo aleatorio simple. 
> sigyl <- sqrt(X1” (1.4)) 
> sigy2 <- sqrt(X1” (2)) 
> sigy3 <- rep(1,N 
> pik1 <- n*sigy1/(sum(sigy1)) 
> pik2 <- n*sigy2/(sum(sigy2)) 
> pik3 <- n*sigy3/(sum(sigy3)) 

3. El tamaño de muestra óptimo basado en el criterio ANOREL para este caso 
multiparamétrico sería de n* = 108. El siguiente código así lo comprueba. 
> al<- sigy172/(sum(((1/pik1)-1)*sigy172)) 
> a2<  sigy2"2/(sum(((1/pik2)-1)*sigy2"2)) 
> a3<- sigy372/(sum(((1/pik3)-1)*sigy372)) 
> aqk <- al+a2+a3 
> n.st <- ((sum(sqrt (agk)))72) /((1+0.03)*3+(sum(aqk))) 
> n.st <- as.integer(n.st) 
> n.st 
[1] 108 

4. El vector de probabilidades de inclusión óptimas para las tres características 
de interés está dado por el siguiente código. Nótese que la suma de estas en 
la población equivale al tamaño de muestra. 
> pikopt <- n.st*sqrt(aqk) /sum(sqrt (agk)) 
> sum(pikopt) == n.st 
[1] TRUE 

5. Como las entradas del vector de probabilidades de inclusión resultante son 


desiguales, entonces se debe seleccionar la muestra con algún diseño de mues- 
treo de orden (probabilidades de inclusión desiguales y tamaño de muestra 
fijo). La función UPopips del paquete sampling selecciona una muestra con 
las anteriores características. Una vez que la muestra se selecciona, se utiliza 
la función getdata para extraer los datos observados. 
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> sam <- UPopips(pikopt,"exponential") 
> getdata(MU281,sam) 
LABEL P85 P75 RMT85 CS82 SS82 582 ME84 REV84 REG CL 
74 17 18 113 8 20 49 784 1733 3 13 
184 12 11 82 6 25 41 646 935 6 33 


Cuando la muestra es seleccionada, el estadístico se enfrenta al problema de la 
estimación multi-paramétrica sobre las características de interés. Es posible es- 
cribir un código computacional para lograr la estimación de los parámetros de 
interés (forma tradicional) o escribir un código computacional una sola vez, ba- 
sado en el enfoque matricial. Para el ejemplo de la población MU281, para la 
cual se obtuvieron probabilidades de inclusión óptimas, T(opt), el estimador de 
Horvitz-Thompson para el vector de totales de las características de interés, para 
el vector de totales de las características de información auxiliar y para el tamaño 
poblacional se calcula mediante el siguiente código. 


Ys <- cbind(Y1,Y2,Y3) [sam,] 
Xs <- cbind(1,X1,X2) [sam,] 
PI <- diag(pikopt [sam] ) 
ones <- rep(1,n.st) 


VvVvy 


> TyHT <- t(Ys)/*/solve(PI)%*/ones 
> TxHT <- t(Xs)%*/solve(PI)%*/ones 
> NHT <- t(ones)%x*%/solve(PI)%*%ones 


El resultado de la ejecución del anterior código es un vector de totales estimados. 
En particular, la estimación de los totales de las características de interés está 
dado por 


> TyHT 

[,1] 
Yi  6603.514 
Y2 49078.942 
Y3 719565.860 


Si uno o varios dominios de interés están involucrados en la etapa de estimación, el 
enfoque matricial da un método simple, pero exhaustivo y efectivo, de estimación. 
El dominio de interés para este caso en particular corresponde a la variable REG la 
cual contiene 8 categorías geográficas. Entonces, es posible obtener estimaciones 
de los parámetros de interés discriminadas por estas regiones. Con el uso de la fun- 
ción disjunctive del paquete sampling, es posible crear la matriz de indicadores 
para los dominios dada en (13.3.7) y obtener las estimaciones correspondientes a 
(13.3.11) y (13.3.13). 


Z <- disjunctive(Z)[sam,] 

NdHT <- t(Z)%/x*%solve(PI)/x*%/ones 

Tyld <- t(Ys[,11*Z)%*/solve(PI)%*%/ones 
Ty2d <- t(Ys[,21*Z)%*/solve(PI)%*%/ones 
Ty3d <- t(Ys[,31*Z)%*/solve(PI)%*/ones 


VWMVvyvoy 
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También es posible reunir los resultados de las estimaciones por medio de una 
sencilla tabla de datos dada por: 


> TydHT <- data.frame(NdHT,Ty1d,Ty2d,Ty3d) 


> TydHT 

NdHT Tyld Ty2d Ty3d 
1 24.17 1045.85 8711.74 109849.38 
2 51.50 895.17 6707.68 90645.23 
3 29.886 594.90 4449.43 60348.27 
4 49.13 1072.34 7235.20 104268.22 
5 64.01 1394.64 9930.63 142899.69 
6 40.50 730.81 5521.88 78599.09 
7 6.44 207.89 1560.50 22637. 41 
8 51.79 661.88 4961.85 110318.56 


Si el estadístico sospecha que es posible utilizar un enfoque de inferencia asistido 
por modelos de superpoblación, entonces se deben establecer las relaciones entre 
las características de información auxiliar y las características de interés por medio 
de un modelo. En este ejemplo particular, existen tres modelos, €, (q = 1,2,3), 
involucrados en un modelo general £. La relación es como lo dicta la siguiente 
expresión: 

Y, = Bao + BarX1 + Ba Xa + Es q= 1, 2, 3. (13.5.5) 


Nótese que Eg, (e;) = 0 y que la estructura de varianza de los modelos anteriores 
es inducida por el paso número dos del diseño de Holmberg que en particular está 
dado por 


2 1.4 
Yi =0idiag(111,%12,...,U1N) 


27: 2 
Ya = 07diag(t11,012,..., U1N) 


2 
23 =03lNxw 


Entonces, el modelo general toma la siguiente forma 


Yu Ya Ya 1 Xi. Xa 
Yo Yo Ys 1 Xi Xz Bio Pzo B3o 
; : ¿ = , ¿ , Bi Ba B31 
a ; : A : 7 Bi2 Baz B32 
Y Yon Y3n 1 Xivy X2aw 

11 €21 €31 

12 €22 —€32 

+ ' Ñ : (13.5.6) 


€liN €E2N €3N 


De esta manera, la estimación de la matriz de coeficientes de regresión en la po- 
blación finita, que involucra la estructura de varianza de cada modelo, dada en 
(13.4.7) se calcula mediante el siguiente código: 
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A1 <- diag(pikopt[sam]*Xs[,2]7 (1.4)) 

B1 <- (solve(t(Xs)/*x41%*/Xs))%*% (t (X5)%*141/*/Ys[,11) 
A2 <- diag(pikopt[sam]*Xs[,2]” (2)) 

B2 <- (solve(t(Xs)/*x42%*/Xs))7%+*% (t (X5)*142/*7Ys [,21) 
A3 <- diag(pikopt [sam] ) 

B3 <- (solve(t(Xs)/*x43%*XsS))7%+*7% (t (Xs)*43%*7 Ys [,31) 


VMVVWvVOyvoyvVv oy 


> B<- matrix(c(B1,B2,B3),nco1=3,nrow=3) 


> B 

[,1] [,2] [,3] 
[1] -1.20582067 -25.5012341 868.01938 
[2,] 1.05356147 8.3134903 104.90848 
[3,] 0.01756820 0.4836855 -15.78483 


El siguiente paso es implementar el estimador múltiple de regresión general para 
los totales de interés dado (13.4.10). El código computacional requiere sólo de una 
linea para la realización del cálculo como se muestra a continuación. 


> TyMgreg <- TyHT+t(B)%*%/(Tx - TxHT ) 
> TyMgreg 
[,1] 
Y1 7079.411 
Y2 53028.236 
Y3 750689.737 


Este estimador puede tomar distintas formas. Entre otras, puede ser reescrito de 
forma simplificada como en (13.4.13). Sin embargo, es necesario calcular antes la 
matriz de calibración dada por la expresión (13.4.14). el siguiente código muestra 
la implementación de la teoría 


> wi <- solve(PI)/x*/hones + (A1%*x%X8s)%*%(solve(t(Xs)/*141/*/Xs))%*% (Tx - TxHT) 
> w2 <- solve(PI)/*/hones + (A2%*x%X8s)%*%(solve(t(Xs)/*142/*/Xs))%*% (Tx - TxHT) 
> w3 <- solve(PI)/*/hones + (A3%*x%X8s)%*%(solve(t(Xs)/*143/*/Xs))%*% (Tx - TxHT) 
> W <- cbind(w1,w2,w3) 

> TyMgreg <- t(W*Ys)/*fones 

> TyMgreg 


[,1] 
y1 7079.411 
Y2 53028.236 
Y3 750689.737 


El principio de calibración mostrado en (13.4.16) puede ser verificado fácilmente 
para cada columna de la matriz de calibración. Particularmente para la segunda 
columna el resultado se mantiene. 


> t(w2)/*x/Xs 
X1 x2 
[1,] 281 6818 13257 


De esta manera, se ha mostrado cómo planear y desarrollar una encuesta multi- 
propósito; en primera instancia, usando el diseño de muestreo de Holmberg en la 
etapa de diseño y el enfoque matricial en la etapa de estimación. 


13.6. Marco y Lucy 465 


13.6 Marco y Lucy 


Al momento de planear una encuesta, la forma tradicional se enfoca en una sola 
variable de interés, la cual es insuficiente para aquel estadístico que debe responder 
por la estimación de varios parámetros de interés. En este capítulo, e indirecta- 
mente a lo largo de todo el libro, se planteó un enfoque útil para la estimación 
simultanea de varios parámetros de interés. Además de las ventajas computacio- 
nales, este enfoque matricial sirve como vehículo para la introducción de tópicos 
de muestreo avanzados como el sistema general de ponderación propuesto por 
Lavallée € Caron (2008). 


Por supuesto, este capítulo cierra con Marco y Lucy que, indirectamente a lo 
largo de todo el libro, han demostrado que el enfoque matricial de estimación 
simultanea debe ser usado por el estadístico teórico y práctico. Suponga que el 
marco de muestreo tiene la cualidad de proporcionar, además de la identificación 
y ubicación de cada empresa, una característica de información auxiliar como el 
Ingreso de cada empresa. En este orden de ideas, el lector, que ha seguido una 
lectura directa del libro hasta esta etapa, sabrá que el tamaño de la población es 
N = 2396 y que se han obtenido excelentes resultados con diseños de muestreo 
proporcionales al tamaño del Ingreso de la empresa para las características de 
interés Empleados e Ingreso. Además, estos buenos resultados se han obtenido con 
un tamaño de muestra n = 400. 


Por otra parte, suponga que la relación entre la característica de información au- 
xiliar Ingreso es lineal para la característica de interés Empleados pero cuadrática 
para la característica de interés Impuestos. Estas características se deben definir 
en el entorno computacional, determinando así las cantidades 0, de la expresión 
(13.5.1), de la siguiente manera. 


data(Lucy) 

attach (Lucy) 

N <- dim(Lucy) [1] 

n <- c(400,400) 

sigy1 <- sqrt(Income” (1)) 
sigy2 <- sqrt(Income” (2)) 
sigma <- cbind(sigy1,sigy2) 
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Recurriendo a la función PikHo1, del paquete TeachingSampling, la cual contiene 
tres parámetros computacionales: el primero, n, es un vector de tamaños de mues- 
tra según la optimalidad de cada diseño para cada variable de interés involucrada 
en la encuesta, sigma una matriz, de N filas y tantas columnas como características 
de interés, en la cual se guardan cada una de las cantidades 0, que determinan 
las relaciones de las características de interés con la información auxiliar y por 
último, e, que corresponde al error máximo permitido bajo el criterio ANOREL. 
El resultado de la función es un vector de probabilidades de inclusión óptimas 
para todos los individuos de la población finita, cuya suma da como resultado el 
tamaño de muestra óptimo bajo este criterio ANOREL. 


> pis <- PikHol(n,sigma,e=0.03) 
> sum(pis) 
[1] 398 
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De aquí en adelante, todo se torna familiar puesto que se recurre a la función 
S.piPS, del paquete TeachingSampling, para seleccionar una muestra aleatoria 
de empresas. El resultado de esta función es, por un lado, un vector conteniendo 
la muestra realizada y, por otro, un vector de probabilidades de inclusión de las 
empresas seleccionadas. Después de la recolección de los datos, se utiliza la fun- 
ción E.piPS para obtener las estimaciones que resultan óptimas bajo el criterio 
ANOREL. 


res <- S.piPS(398,pis) 
sam <- res[,1] 

Pik.s <- res[,2] 
muestra <- Lucy[sam,] 
attach(muestra) 
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NA 


estima <- data.frame(Income, Employees, Taxes) 
E.piPS(estima,Pik.s) 

Income Employees Taxes 
Estimation 1.034870e+06 1.487223e+05 2.843080e+04 
Variance 4.553146e+07 1.109766e+07 6.954306e+05 
CVE 6.520335e-01 2.239957e+00 2.933174e+00 


NA 


Los resultados del muestreo de Holmberg son óptimos para todas las variables de 
interés de la población de empresas del sector industrial. Son óptimos puesto que 
las probabilidades de inclusión que utilizó el estimador de Horvitz-Thompson fue- 
ron construidas con base en diseño óptimos para cada una de las características de 
interés. Además de tener la características de optimalidad, son muy precisos y sólo 
basta con observar el cuadro de salida para concluir que sí es posible planear una 
encuesta multi-propósito con diseños de muestreo que contemplen gran cantidad 
de características de información auxiliar y que los resultados son muy eficientes. 


Tabla 13.1: Muestreo de Holmberg: estimación de los totales de las características 
de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1034870 0.65 -0.00 
Empleados 151950 148722 2.23 -0.02 
Impuestos 28654 28430 2.93 -0.00 


13.7 Ejercicios 


13.1 Demuestre la siguiente igualdad 
Covlty,r, dos) = y y Axl Yk Le 
U U 


13.2 Demuestre que, para un diseño de muestreo aleatorio simple, se tiene la si- 
guiente relación 


Lo N? 
Coiyar tan) = E (1 35) Covs(y,2) 


n 
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En donde 


Covs(y, e) = 5 Vte — s)(ar — 35) 
S 


13.3 Obtenga una expresión para las probabilidades de inclusión de Holmberg 
cuando todas las medidas de tamaño son constantes en un estudio multi- 


propósito. 


13.4 Demuestre la expresión (13.3.13) 


Capítulo 14 


Muestreo indirecto 


En investigaciones sociales o económicas es útil contar con un marco de 
muestreo [en el proceso] de selección de muestras... Desafortunadamente, 
[a veces] sucede que no se cuenta con una lista que contenga las unidades 
objetivo, sino que se cuenta con otra lista de unidades que están vinculadas 
de cierta manera a la lista de las unidades objetivo. 


Jean-Claude Deville (2006) 


En la práctica los marcos de muestreo de elementos no están siempre disponibles. 
Sin embargo, en algunas ocasiones, es posible tener acceso a diferentes marcos de 
lista de elementos que, si bien no hacen parte de la población objetivo, sí están 
indirectamente relacionados con ésta. Al proceso de selección de muestras bajo 
las anteriores condiciones se le llama Muestreo Indirecto que está caracterizado 
porque la producción de estimaciones de simples totales o medias se puede volver 
una pesadilla para el estadístico. Para resolver este problema se apela al método 
de ponderación generalizada, caracterizado por su simplicidad y cuyos estimadores 
comparten la buena propiedad del insesgamiento, incluso bajo muestreo indirecto. 


Para producir estimaciones, en investigaciones de tipo social, económico, etc., gene- 

radas mediante una estrategia de muestreo (p(s), 7 (S)) es imprescindible el acceso, 

al menos de manera implícita, a un marco de muestreo de elementos de la pobla- 

ción objetivo, denotada como Up. Desafortunadamente, el acceso a tal marco de 

muestreo es, en la mayoría de ocasiones, difícil de conseguir. Sin embargo, a ve- 

ces, es posible considerar la disponibilidad de un marco muestral de elementos]] de 
E 


alguna otra población U, vinculados con los elementos de la población objetivo. 


Se pretende seleccionar una muestra probabilística s4 de la población Ux para 
obtener estimaciones para la población U¡g usando la correspondencia entre las 
dos poblaciones. Por ejemplo, asuma que se desean obtener estimaciones de una 
población de niños con la restricción de que sólo se tiene acceso a una lista de 
padres conteniendo la respectiva identificación y ubicación de cada uno de ellos. 
La población objetivo son los niños, pero es necesario seleccionar una muestra de 
padres para poder entrevistar a los niños. 


¡Nótese que este es un caso particular del muestreo de conglomerados si el marco de muestreo 
de la población Ux fuera de conglomerados 
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14.1 Notación 


La población Ux contiene N4 unidades. Cada unidad perteneciente a la población 
de Ux será rotulada con la letra j. Cada unidad perteneciente a la población 
objetivo Ug de tamaño Ng será rotulada con la letra ¿. La correspondencia entre 
las dos poblaciones U y Ug pueden ser representadas por una matriz de vínculos, 
denotada por O1B = [959 ] de tamaño Na x Np. Los posibles valores de la matriz 
están dados de la siguiente manera 


gan Í > 0, si j está relacionado con 1; (14.1.1) 
=0, en otro caso. 
En el ejemplo de los padres, si la matriz de vínculos está dada por 
e 4 0 
_ o 4 0 
Oar = 0 o 043 (14.1.2) 
0 0. 077 


entonces los vínculos existentes entre las dos poblaciones serían los siguientes 


e La primera pareja, dada por los elementos 1 y 2 de la población Ux tiene un 
hijo notado como el segundo elemento de la población Up. 


e Sin embargo, el elemento 1 de la población Ux tiene otro hijo por fuera del 
matrimonio y es notado como el primer elemento de la población B. 


e La segunda pareja, dada por los elementos 3 y 4 de la población Uax, tiene 
sólo un hijo notado como el tercer y último elemento de la población Up 


Usualmente, cuando existe un vínculo entre el elemento j-ésimo de la población 
Ua y el ¿-ésimo elemento de la población Up, q3> toma el valor uno. Aunque el 
vínculo puede ser distinto de uno como es discutido en (Lavallée 2007). 


Usando muestreo indirecto, una muestra s4 de tamaño na es seleccionada (rea- 
lizada) mediante el uso de un diseño muestral pa(sa4). Sean TA > 0Vj € Uala 
probabilidad de inclusión del j-ésimo elemento. Para cada elemento en la muestra 
saA se identifican las unidades en Ug cuya correspondencia con los elementos de 
la población U1 es no nula, es decir tales que a7? > 0. Sea sg el conjunto de 
ng unidades de la población objetivo que se lograron identificar con ayuda de los 
elemento pertenecientes a la población Uz. Por tantd?] 


sg =(fi€ B| 3j€sa y 07 >0) (14.1.3) 


2Nótese que el conjunto sg, aunque constituye una muestra al azar, no constituye una muestra 
aleatoria o probabilística puesto que su probabilidad de selección es desconocida. Se debe tener en 
cuenta que a pesar de que existe un diseño de muestreo pa (-) que gobierna la selección aleatoria 
de la muestra sA, éste no es el mismo que gobierna la selección del conjunto sg, puesto que para 
dos muestras distintas, digamos sa11 y sa2, el conjunto de unidades finales en la población Up 
puede resultar el mismo. Sin embargo, de aquí en adelante llamaremos, abusando del lenguaje, 
al conjunto sg como la muestra de la población Up. 
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Para cada elemento identificado en la población objetivo se realiza el proceso de 
medición de la característica de interés y. Sin embargo, el número de elementos de 
la población objetivo identificadas por el proceso de muestreo indirecto es gene- 
ralmente aleatorio porque no sólo depende de la muestra seleccionada s 4 sino que 
también de la matriz de vínculo O 43. Así que se torna muy complicado establecer 
un presupuesto para la etapa de recolección de la información; afortunadamente, 
en algunas poblaciones (como la de los padres e hijos) es posible predecir el número 
de vínculos entre las poblaciones (por ejemplo, un padre tiene uno, dos o incluso 
tres hijos). 


Un requisito importante, a la hora de aplicar el muestreo indirecto, es que para 
todas las unidades seleccionadas en al muestra s4 se puede obtener la correspon- 
dencia a la población objetivo y viceversa. Este es un supuesto muy fuerte, aunque 
necesario. Por ejemplo, es fácil que un padre pueda identificar a todos sus hijos, 
por otro lado no es tan sencillo que un niño muy joven pueda identificar a sus pa- 
dres divorciados. Sin embargo, este problema operativo se considera despreciable 
en términos del desarrollo teórico. De tal forma que es posible conocer los valores 
de la matriz O 1g para las filas j € s4 así como también para las columnas 1 € sg. 


14.2 Estimación del total 


El objetivo es estimar el total de y en la población objetivo 


4= 5 (14.2.1) 
1€UB 
=15y (14.2.2) 
donde 15 es el vector de unos de tamaño Ng y y = (y1,...,Yn 5). Ahora, se tiene 


la siguiente definición que coadyuvará en la estimación del total poblacional. 


Definición 14.2.1. La matriz de vínculo estándar se define como 
13 =OGanldiag(110 48) (14.2.3) 
Con base en lo anterior, nótese que 


1,048 =(04P,042,...,048) (14.2.4) 


donde 04P = Y 028 debe ser no E todo ¡ € Up. Con esto (14.2.3) 


jEUA “Ji 


está bien definida y por lo tanto 04 = 


945 a 


En la población de ejemplo, significaría que todo hijo debe estar vinculado al menos 
a un padre, lo cual es lógico en este contexto específico. Sin embargo esta lógica 
no siempre se cumple y en algunas ocasiones la definición propia de la población 
Ua es compleja. 


3Esta restricción indica que todos los miembros de la población U1 deben tener al menos un 
vínculo con algún individuo de la población objetivo. Aún más, con esta restricción, si existe 
algún miembro de la población Ux que no tenga vínculo con algún miembro de la población Ug 
no debe ser considerado. 


472 14. Muestreo Indirecto 


Resultado 14.2.1. Si O4p es una matriz de vínculo estándar, entonces 
Ougla =15 (14.2.5) 


Prueba. Desarrollando algebraicamente, se tiene la demostración directamente 
al aplicar la anterior definición, de la siguiente manera: 


/ 
is Ka = ([dias(14048)]7) ABÍA 
= [diag(140 48) (14048) 


1 
PAR 0 A 0 pAB 
+1 Ñ 1 
0. 5 0 023 
+2 +2 
= Ñ =15 
1 AB 
0 0 pAB ON 
+NB 


Resultado 14.2.2. El total poblacional de la característica de interés puede ser 
reescrito de la siguiente manera 


=>,» Sp (14.2.6) 


jEUA ¿Un Y 


Prueba. Directamente de la definición de la matriz de vínculo estándar, se tiene 
que 


ty = 1 py 


=1,043By = y y Sapo 


jEUA ¿Un ? 


A continuación se define el vector columna z = O ABy de tamaño Ny cuyo j-ésimo 
elemento es 2; = >iey, pa yi establecido para la población UA y medido en la 
muestra sA. Para estimar t,, se debe recurrir a la utilización de los valores de 
yí medidos en la muestra sg, de tal forma que es posible construir el siguiente 


estimador 


ty = Y wy (14.2.7) 


1€UB 
= w'y (14.2.8) 
donde w = (w1,...,wn5), w, es la ponderación estimada del ¿-ésimo elemento de 
sg. Por supuesto, w, = 0 si ¿ £ sg. Para que t, sea insesgado es usual definir 


w, = (TP)7!. Sin embargo, esta escogencia, aunque posible en la teoría, es muy 


difícil de hallar en muestreo indirecto puesto que se debe tener conocimiento de 
todos los posibles vínculos generados por todas las posibles muestras a 4. 
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14.3 Método de ponderación generalizada 


La muestra s4 fue seleccionada de acuerdo a un diseño de muestreo pa(saA). Este 
diseño de muestreo induce un vector de probabilidades de inclusión para todos los 
elementos de Ua. Sea Ta = diag(rf,... TN) una matriz diagonal de tamaño 
Na1x Na conteniendo las probabilidades de inclusión para ¿ € Ua en su diagonal. 
De igual manera, se define la matriz de inclusión de los elementos en la muestra 
dada por la = diag(If,... do) con 


l sie Sa 
TI2(SA)= 14.3.1 
7 (Sa) lo siid Sa. ( ) 


Partiendo de que el total poblacional toma la siguiente forma 
ty = 1,0 ABY 
=14z 


entonces, es posible construir una expresión que respete los principios del estimador 
de Horvitz-T'hompson en términos del vector Z. Por lo tanto 


=tis= DL, LAT, (14.3.2) 
= 11111, '0 18y (14.3.3) 
Por ello, se define el vector de ponderaciones para la población objetivo Ug como 


w=1,T1,11,048 (14.3.4) 


donde cada elemento de w, el cual es un vector de tamaño Ng, está definido por 
la siguiente expresión 


jes Dian» para todo ¿€ sg (14.3.5) 


0, para todo ¿4 sg 


De esta forma, se dice que los pesos w, han sido obtenidos mediante el método de 
ponderación generalizada tal como se describe en (Lavallée 2007). En este orden de 
ideas, y retomando nuestro ejemplo de la población de padres e hijos, si la muestra 
realizada de padres estuviera dada por 


sA=Padre 2, Padre 3. 


entonces el conjunto de niños identificados por los padres seleccionados estaría 
dado por 


sp=Niño 2, Niño 3. 


y las ponderaciones resultantes serían 


474 14. Muestreo Indirecto 


e' 1; =0 pues el Niño 1 no fue identificado por ningún padre 


e Para el Niño 2 se tiene que 


SAB 
ey I 05 
Wa = 5 A 
jeUa J 
SAB 
4, 05 
5 > Ñ A 
T 
JESA 1 
SAB SAB 
E 033 033 
TA: A 
Ta T3 


AB 
dE IL 953 
Wa= j A 
jEUA ' 
AB 
es S : 953 
en A 
T 
JESA 1 
QAB SAB 
A 033 033 
a A A 
Ta T3 


14.3.1 Propiedades 


Se tienen las siguientes propiedades generadas de los pesos del método de ponde- 
ración generalizada 


Resultado 14.3.1. El estimador t, es insesgado 


Prueba. Basta con demostrar que E(w) = 15. Esto se tiene por construcción, 
dado que el estimador de Horvitz-Thompson es insesgado puesto que la esperanza 
de las variables indicadoras f; es igual a la probabilidad de inclusión E De esta 
manera, se tiene que 
E(t,) = E(w)y 

= E(14IA5,'O1ñ)y 

=1/E(la),'04py 

=1/M,01,'0 184 

=1104BYy 

= 1 By = lt, 
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Resultado 14.3.2. El vector w provee estimaciones insesgadas si y sólo si la 
matriz O 1 es una matriz de vínculo estándar 


Prueba. Se tiene que E(w) = 0',p1a; sin embargo asumiendo, por el resulta- 
do anterior, que el vector de pesos induce estimaciones insesgadas tenemos que 
E(w) = 15. Por tanto Orla = 15 y, con base en este razonamiento, se tiene la 
demostración del resultado. | 


Resultado 14.3.3. La varianza de te está dada por 


Var(t,) =ZArz (14.3.6) 
= y'Apy (14.3.7) 


donde Ag = O 17 Ar AB y Á,a es la matriz de varianzas y covarianzas de ta- 
maño Na x Na de las variables indicadoras de los elementos de la población UA 
doblemente ponderada por probabilidades de inclusion cuyo elemento jj" está dado 
por 


Prueba. Siguiendo los principios del estimador de Horvitz-Thompson se tiene la 
demostración de manera inmediata, puesto que 


A 
Af, yde Aya 
TETE ETA y 21 
/ . a . . 
ZAAz=(21,...,2N4) : . : : (14.3.8) 
Añar AÑaNa ¿NA 
TNA” TNATNA 
21 
AA AA 
E . y NA 
> A O > A A (14.3.9) 
sur EN ¡ls PNA 
d ZNA 
Zj 25! A 
Ez > > pd Es 
= Asi TALA = Var(tzr) (14.3.10) 
jEUA j'EUa 307 
y reemplazando convenientemente se obtiene la demostración. mn 


14.3.2 Algunas matrices especiales 


En general, el muestreo indirecto produce estimaciones insesgadas si se utiliza el 
método de ponderación generalizada. Sin embargo, vale la pena presentar casos 
especiales de matrices de vínculo que ilustren el comportamiento del estimador de 
Horvitz-Thompson. En este apartado, se presentan algunas de estas matrices que 
corresponden a casos extremos, que aunque posiblemente no sean plausibles en la 
práctica, sirven para ilustrar el efecto de la matriz de vínculo sobre el estimador 
del total poblacional de la característica de interés. 
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Matriz identidad 


Al asumir que la matriz de vínculo es una matriz identidad, se tiene que la pobla- 
ción Ur y la población Ug tienen una correspondencia uno a uno. Esto implica 
que el tamaño de las dos poblaciones es el mismo, así N¿ = Ng = N y que la 
matriz de vínculo está dada por 


1.0 0 
0 1 0 
Oa1z = IvxnN = e 
0.0 1 
Con lo que el vector de pesos es 
/ 
1% Te 
A E da (14.3.11) 
Us TNA 


y por tanto Z = y. Luego, el estimador by tomará la forma del estimador de Narain- 
Horvitz-Thompson así 


ti TA y (14.3.12) 


Uno para todos 


Considere el caso en que la población objetivo se encuentra particionada en NP 
conglomerados, cada uno de tamaño NP ¡= 1,..., NP. Cada conglomerados de 
UP está asociado exactamente con un elemento j de Uz. Nótese que NP = N Sa 
Por tanto, la matriz de vínculo está dada por 


os 0 Li 0 
e ME 0 
BaB=l| . 2... (14.3.13) 
0. 0. Ts 
donde 15, el vector de unos de tamaño NP i=1,...,N7. La matriz de vínculo 
también puede ser escrita como O4p = diag(1g1,..., Uy» por tanto la matriz 
T 


de vínculo estandarizada toma la siguiente forma 


Org = O apldiag(1404B)]* (14.3.14) 
= Ganldiag(1adiag(1p1,..., an (143.15) 
=Oabldiag(Ug1,---Lgyo)) (14.3.16) 
= SA NEXEA, le (14.3.17) 
=0AB (14.3.18) 


Se tiene entonces que el vector de pesos w está definido como 


A r2 ! 
IT A 
w= ES a top) (14.3.19) 
TT 
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y el estimador se puede escribir como 
ty=)_ztyu, (14.3.20) 
donde ty.u, = > rey» yx es el total de ¿-ésimo conglomerado de la población U E 


Todos para uno 


En este caso se considera que la población U4 está particionada en N E conglo- 
merados, cada uno de tamaño NÍ j=1,...,Nf. Cada conglomerado de Uf está 
asociado exactamente con un elemento ¿ de Ug. Nótese que Nf* = NB. Por tanto, 
la matriz de vínculo está dada por 


E 1 0 
A 0 
OaB= . . 3 . (14.3.21) 
0 0 A Lava 
donde 1 4; el vector de unos de tamaño Ny? Plis N2. En este caso particular, 
la matriz de vínculo estandarizada está dada por la siguiente expresión 
13 =OGarldiag(110 48) * (14.3.22) 
1 1 
= diagl= 111)...» +1 14.3.23 
1 ma Al NE, ANA) ( ) 


Se tiene entonces que el vector de pesos w está definido como 


14 


1 ES 1 17 
w= O y a (14.3.24) 
L jeup UJ NP JEULA j 
y el estimador resultante toma la siguiente forma 
NN? TA 
a Yi j 
E = y va sd (14.3.25) 


14.4 Ejemplo léxico-gráfico 


Suponga que en el ejemplo de la población de Padres e Hijos, cuya matriz de 
vínculos está dada por la expresión (14.1.2), y se plantea una investigación acerca 
de la estimación del total de los Hijos. Para tales efectos, se supone que la matriz 
de vínculos, siguiendo el consejo de Lavallée (2007) está dada por 


Oaz = (14.4.1) 


ooo. 
OOBrRA 
400 
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En resumen, la población de los Padres U 4 está compuesta por Ny = 4 individuos. 
Se desea seleccionar una muestra S4 de na = 2 individuos mediante un diseño 
de muestreo aleatorio simple. Bajo esta configuración existen 5 = 6 posibles 
muestras. Por otro lado, la población objetivo Ug está compuesta por Ng = 3 
Hijos cuyas edades son 2 años, 3 años y 3 años, en estricto orden; es decir, el total 
poblacional de la característica de interés es 24 3+3 = 8 años. Repasemos cada 
una de las posible muestras y veamos que, efectivamente, el estimador resultante 
es insesgado para el total poblacional. 


Con esta configuración, es necesario hallar la matriz de vínculo estándar poblacio- 
nal. De esta manera de la definición 14.2.1, se tiene que 


A = de 0 


Por lo tanto, la matriz de vínculo estándar está dada por 


a 0 

A E 

9a=l 0 0 1/2 (14.4.2) 
0 0 1/2 


e Primera muestra: sa = [Padrel, Padre2%+. El Padrel vincula al Hijol 
y al Hijo2, mientras que el Padre2 solamente vincula al Hijo2. De esta 
manera queda definida la muestra de la población objetivo como sg = 
[Hijol, Hijo2). Las ponderaciones están dadas a continuación. 


B - 
Lam =D jes, Er = (4/2) DOjes, 0 =21+0) =2 
2 w= jes ar = (4/2) Zjesa 937 =2(1/2+ 1/2) =2 
3. w3 =0 puesto que ningún Padre lo vinculó. 
Después de recolectadas las observaciones, el vector de valores para la ca- 
racterística de interés es ys = (2,3) se tiene que la estimación es f, = 
Vies Wiyi = (2 x 2) + (2x 3) =10 


e Segunda muestra: sa = [Padrel, Padre3). El Padrel vincula al Hijol 
y al Hijo2, mientras que el Padre3 solamente vincula al Hijo3. De esta 
manera queda definida la muestra de la población objetivo como sg = 
[Hijol, Hijo2, Hijo3). Las ponderaciones están dadas a continuación. 


AB es 
Low => esa A = (4/2) Ziesa 0 = 2140) =2 


AB po 
2. w= Dirk eE == (4/2) jesá 07 7 2(1/2 ES 0) =1 


AB AN 
3. w3= Dies, + = (4/2 DO jes, 0% = 204 1/2) =1 


Después de recolectadas las observaciones, el vector de valores para la ca- 
racterística de interés es ys = (2,3,3) se tiene que la estimación es t, = 
Vies Wiyi = (2x2) + (1x3) + (1x3) =10 
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e Tercera muestra: s4 = [Padrel, Padre4). El Padrel vincula al Hijol 
y al Hijo2, mientras que el Padre4 solamente vincula al Hijo3. De esta 
manera queda definida la muestra de la población objetivo como sg = 
[Hijol, Hijo2, Hijo3+. Las ponderaciones están dadas a continuación. 


AB zz 

Lo = Ejes, ir = (4/2) Ejes, IN? =2(140) =2 
AB po 

2. W=Dies, Er = (0/2 jes, 02 = U1/2+0) =1 
B “Ss 

3. us = Des, er = (4/2) Ejes, 03 = 204 1/2) =1 


Después de recolectadas las observaciones, el vector de valores para la ca- 
racterística de interés es ys = (2,3,3) se tiene que la estimación es t, = 
Diesp Wiyi = (2x2) + (1x3)+ (1x3)=10 


e Cuarta muestra: sa = [Padre2, Padre3+. El Padre2 vincula solamen- 
te al Hijo2, mientras que el Padre4 solamente vincula al Hijo3. De esta 
manera queda definida la muestra de la población objetivo como sg = 
[Hijo2, Hijo3). Las ponderaciones están dadas a continuación. 


1. ww, =0 puesto que ningún Padre lo vinculó. 
2. w=Dies, Er = (4/2 O jes, 07 = 21/24 0) =1 


3.03 = és o = (4/2 Dijes, OP = 204 1/2) =1 


Después de recolectadas las observaciones, el vector de valores para la ca- 


racterística de interés es ys = (3,3) se tiene que la estimación es ty = 
Dies p WiYi = (1 Xx 3+(1 x 3) =6 
e Quinta muestra: sa = [Padre2, Padre4). El Padre2 vincula solamen- 


te al Hijo2, mientras que el Padre4 solamente vincula al Hijo3. De esta 
manera queda definida la muestra de la población objetivo como sg = 
[Hijo2, Hijo3). Las ponderaciones están dadas a continuación. 


1. ww, =0 puesto que ningún Padre lo vinculó. 

B ss 
2. wa¿= ica AE => (4/2) Pes 03 = 2(1/2 + 0) =1 
3. ws =Djesr ar = (2) Ejes 02P =2(0+1/2) =1 


Después de recolectadas las observaciones, el vector de valores para la ca- 
racterística de interés es ys = (3,3) se tiene que la estimación es t, = 
Dies Wii = (1 Xx 3+(1 Xx 3) =6 


e Sexta muestra: sa = íPadre3, Padre4). El Padre3 vincula solamente al 
Hijo3, al igual que el Padre4. De esta manera queda definida la muestra de 
la población objetivo como sg = [Hijo3). Las ponderaciones están dadas a 
continuación. 


1. ww, =0 puesto que ningún Padre lo vinculó. 


2. wa =0 puesto que ningún Padre lo vinculó. 
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AB 
053 


3. w3= bss ro = (2) Era 077 = 2(1/2 ds 1/2) =2 


Después de recolectadas las observaciones, el vector de valores para la carac- 
terística de interés es ys = 3 se tiene que la estimación es ty = ¡esp WiYi = 
(2x3)=6 


En resumen, promediando las estimaciones con respecto al diseño de muestreo Pa, 
se encuentra fácilmente que el estimador es insesgado puesto que 


(1/6) x (10+10+10+6+6+6)=8=1, 


Por otro lado, nótese que el diseño de muestreo para la población objetivo, el cual es 
desconocido siempre que se seleccione una sola muestra, está dado a continuación 


2/6, sisg=4(Hijol, Hijo2, Hijo3) 
2/6, sisg =+H1j02, Hijo3 

pe(sB) = / a t E Él ) (14.4.3) 
1/6, sisg =(Hijol, Hijo2) 


1/6, si sg =(Hijo3) 


Por supuesto, en un ejercicio ilustrativo de este estilo, sería posible calcular las 
probabilidades de inclusión y utilizar el estimador de Horvitz-Thompson para es- 
timar el total poblacional. Sin embargo, en la vida práctica esta opción se descarta 
rápidamente a medida que se aumenta la complejidad del diseño de muestreo y el 
tamaño de muestra. 


14.5 Ejercicios 


14.1 Suponga que se requiere la estimación del total de kilovatios al mes consumi- 
dos por los hogares de un municipio. Además, asuma que no existe un marco 
de muestreo de hogares, aunque sí de individuos, y que para acceder a la 
información requerida se diseña una muestra de individuos a los que se les 
pregunta por la información de su hogar. 


e Argumente por qué este problema puede ser resuelto con un enfoque de 
muestreo indirecto. 


e Con base en lo anterior, proponga un estimador para el total de kilo- 
vatios consumidos en los hogares mediante el método de ponderación 
generalizada. 


e Si se seleccionó una muestra de n individuos, defina la probabilidad de 
inclusión de un hogar compuesto por M < n individuos. 


e Con base en lo anterior escriba las expresiones teóricas de los estimadores 
de Horvitz-T'honmpson y de Hajek para el total de kilovatios consumidos 
en los hogares. 


14.2 Bajo muestreo indirecto, proponga una expresión para el estimador del total 
poblacional, si la muestra sy] se seleccionó de forma aleatoria simple. 
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14,3 


14.4 


14.5 


14.6 


14.7 


14.8 


14.9 


14.10 


Bajo muestreo indirecto, proponga una expresión para el estimador del total 
poblacional, si la muestra s4 se seleccionó de forma aleatoria estratificada. 


Bajo muestreo indirecto, proponga una expresión para el estimador del total 
poblacional, si la muestra sx se seleccionó de forma bietápica. 


Bajo muestreo indirecto, proponga una expresión para el estimador del total 
poblacional, si se utiliza un estimador general de regresión con características 
de información auxiliar de la población Ua. 


Bajo muestreo indirecto, proponga una expresión para el estimador del total 
poblacional, si se utiliza un estimador general de regresión con características 
de información auxiliar de la población Up. 


¿Qué formas de ausencia de respuesta se pueden presentar en muestreo indi- 
recto?. 


Discuta por qué el muestreo de redes se puede ver como un caso particular 
de muestreo indirecto y proponga un estimador que involucre el método de 
ponderación generalizada. 


Discuta por qué el muestreo adaptativo se puede ver como un caso particular 
de muestreo indirecto y proponga un estimador que involucre el método de 
ponderación generalizada. 


Discuta por qué el muestreo bola de nieve se puede ver como un caso particu- 
lar de muestreo indirecto y proponga un estimador que involucre el método 
de ponderación generalizada. 


Capítulo 15 


Muestreo balanceado 


El método del cubo propone un procedimiento general que permite la selec- 
ción de muestras aleatorias balanceadas, con probabilidades de inclusión 
simples o desiguales en el sentido de que las estimaciones de Horvitz- 
Thompson son iguales, o casi iguales, al total poblacional de las variables 
de balanceo. 


Yves Tillé (2006) 


Comúnmente, el muestreo balanceado ha sido conocido como una técnica de mues- 
treo no probabilístico tal como el muestreo por cuotas, por conveniencia o por juz- 
gamiento. Este tipo de muestreo sugiere la selección de muestras, para las cuales 
la media muestral de una característica de información auxiliar sea idéntica a la 
media poblacional de dicha característica de información auxiliar. Es más, si esta 
característica de información auxiliar está bien correlacionada con la característi- 
ca de interés, entonces se dice que el muestreo balanceado es óptimo puesto que 
reproducirá con precisión el total o la media de la característica de interés en la 
población. 


Tillé (2006) afirma que la idea de seleccionar muestras balanceadas nació con Ney- 
man (1934) cuando afirmó que «el método de la selección a conveniencia consiste 
en a) dividir la población de distritos en estratos de segundo orden de acuerdo a los 
valores de x e y, b) seleccionar aleatoriamente de cada estrato un número fijo de 
distritos. El número de selecciones está determinado por la condición del manteni- 
miento del promedio ponderado de la característica de interés>. Más adelante, en 
Yates (1946) se encuentra el siguiente extracto: «Se debe seleccionar una muestra 
aleatoria. Los individuos serán incluidos mediante el mismo proceso aleatorio, el 
primer miembro será comparado con el primer miembro de la muestra original, el 
segundo individuo con el segundo de la muestra original y así sucesivamente. Un 
nuevo miembro será sustituido si mejora el balance». 


Recientemente, se ha llegado a soluciones parciales para la selección aleatoria (me- 
diante diseños de muestreo propiamente definidos) de muestras balanceadas por 
medio de métodos propuestos por algunos reconocidos autores de como Ardilly 
(1991) y Deville (1992). Por otra parte, autores como y Valliant, Dorfman éz Royall 
(2000) o Royal éz Herson (1973) han considerado la construcción de estimadores, 
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enmarcados bajo métodos de inferencia basada solamente en modelos poblacio- 
nales, y su optimalidad desde el punto de vista del modelo sin tomar en cuenta 
el diseño muestral y concluyen que un diseño de muestreo puede ser balanceado 
aunque no necesariamente aleatorio o probabilístico. 


Por otro lado, Deville £z Tillé (2004) desarrollaron un procedimiento general y 
riguroso que permite la extracción de muestras probabilísticas balanceadas y la 
posterior estimación de las cantidades de interés, enmarcados bajo métodos de 
inferencia basados en el diseño de muestreo. Este procedimiento es conocido como 
el método del cubo y permite la selección de muestras aleatorias sobre un conjun- 
to de características de información auxiliar (o variables de balanceo), y tiene la 
agradable propiedad de que el estimador de Horvitz-Thompson reproduce el total 
poblacional de las variables de balanceo. Más adelante, Deville dz Tillé (2005) adap- 
taron una aproximación de la varianza para el estimador de Horvitz-T'hompson en 
muestreo balanceado. 


15.1 Notación 


Dado que bajo un diseño de muestreo balanceado, el estimador de Horvitz-Thom- 
pson, para los totales de un conjunto de variables auxiliares, debe ser igual al total 
poblacional de las mismas, la varianzas del estimador del total poblacional de la 
característica de interés se debe reducir de acuerdo al aumento de correlación con 
las variables auxiliares. 


El objetivo es estimar el total poblacional de la característica de interés t, = 
rev yk, entonces se supone que los valores de los vectores 


/ 
Xp = (8h1, Dh2)---) 2Q) 


tomados para q variables de balanceo, se conocen para todas las unidades de la 
población. Por tanto, el vector de totales de las variables de balanceo 


E 


keU 


es también conocido, y puede ser estimado, utilizando el estimador de Horvitz- 
Thompson, por medio de la siguiente expresión 


El objetivo es construir un diseño de muestreo balanceado, definido como sigue. 


Definición 15.1.1. Un diseño de muestreo es balanceado con respecto a las 
variables auxiliares x1,..., 1q, sí y sólo sí éste satisface las ecuaciones de balance 
dadas por 

xr = tx (15.1.1) 


para toda muestra s € S tal que p(s) > 0 y para todo q = 1,...,Q. En otras 
palabras 
Var(txr)=0 
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Nótese que Var(X,) es una matriz de varianzas covarianzas. En estos términos, 
el diseño de muestreo balanceado, define un soporte Q dado por 


o- (resiY En=0) 


keU 


donde 1 = (1;,...,1,)' es el vector de inclusión de los elementos en la muestra y 
S es el soporte simétrico sin reemplazo. Para aceptar que un diseño de muestreo 
puede estar condicionado, el lector deberá estar familiarizado con las definiciones 
dadas en los primeros capítulos de este texto. En particular, nótese que de la 
definición 2.1.5, el soporte simétrico sin reemplazo, que permite la definición del 
muestreo aleatorio simple, entre otros, es también un soporte condicionado y dado 


por 
5-1 u=0) 


keU 


También, el soporte simétrico con reemplazo de tamaño fijo, que permite la debida 
definición del diseño aleatorio simple con reemplazo, entre otros, está condicionado 


puesto que 
Ra= (ser m0) 


keU 


15.1.1 Ejemplos 


A continuación se presentan algunos ejemplos que, si bien no son útiles en la 
práctica, sí ilustran el objetivo del muestreo balanceado. 


Ejemplo 15.1.1. Muestreo aleatorio simple: esta clase de diseños de muestreo 
de tamaño fijo n son balanceados sobre la variable uz = Tx, k € U. Pues, 


xk 
e l=n= 
NÉ- Y ion= Em 
kes kes keU 
Ejemplo 15.1.2. Estratificación: suponga que en una población estratificada 
en AH estratos (Up, h = 1,..., H, HU, = Nh) se selecciona una muestra aleatoria 
simple de tamaño n; en cada estrato. El diseño es balanceado sobre las variables 


ó 1 si la unidad k está en el estrato h, 
kh = 
y O en otro caso 


Puesto que, 


e — Mp Y 


kes keSs keU 


En la mayoría de problemas prácticos, las ecuaciones de balance no pueden ser 
exactamente satisfechas, en otras palabras existe un problema de redondeo que 
se da porque el inverso de la probabilidad de inclusión no es un entero. Por esta 
razón, el objetivo es construir un diseño muestral que satisfaga las ecuaciones de 
balanceo exactamente, si es posible, ó encontrar la mejor aproximación, si no lo es. 
El problema de redondeo es despreciable cuando el tamaño de muestra esperado 
es grande. 
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15.2 El método del cubo 


Este método se compone de dos fases, llamadas la fase de vuelo y fase de aterrizaje. 
En la primera, para que las restricciones sean satisfechas exactamente, se deben 
redondear a cero (0) o uno (1) las probabilidades de inclusión. La fase de aterrizaje 
consiste en el manejo adecuado del redondeo. 


Como hemos visto, cada vector s, en muestreo sin reemplazo, es un vértice de un 
N-cubo y el número de posibles muestras es el número de vértices del N-cubo. 
Un diseño muestral con vector de probabilidades de inclusión 7r, consiste en la 
asignación de una probabilidad a cada vértice. 


Geométricamente, un diseño muestral consiste en expresar el vector 7” como una 
combinación lineal convexa de los vértices del N-cubo. Un algoritmo puede ser 
visto como un camino (aleatorio) que lleve a alcanzar un vértice del N-cubo de tal 
manera que se satisfagan las ecuaciones de balanceo. 


15.2.1 Fase de vuelo 


Es una caminata aleatoria que comienza con un vector de probabilidades de in- 
clusión y permanece en la intersección del cubo y el subespacio restringido por las 
ecuaciones de balanceo. Esta caminata aleatoria se detiene en un vértice de dicha 
intersección. 


El objetivo de esta fase es escoger aleatoriamente un vértice de 
K=((0,14nQ) 


donde Q = T+kerA y A = (X1,...,Xp), de tal forma que las ecuaciones de 
balance se reproduzcan a satisfacción. La fase de aterrizaje es sólo necesaria si el 
vector escogido no es un vértice del cubo y consiste en flexibilizar las restricciones 
(lo menos posible) para seleccionar una muestra, esto es, un vértice del cubo. 


Ejemplo 15.2.1. La fase de vuelo transforma un vector de probabilidades de 
inclusión en un vector de ceros y unos. 


0.5 0.666 1 1 
ps 0.5 a 0.666 es 0.5 de 0 
0.5 0.666 0.5 1 
0.5 0 0 0 


Si existe un problema de redondeo, entonces algunos componentes no pueden ser 
convertidos en cero 


0.5 0.625 0.5 1 
0.5 0 0 0 
T=|05| => |[0.625| > [0.5 | => 0.5 
0.5 0.625 1 1 
0.5 0.625 0.5 0 


15.2.2 La martingala balanceada 


El algoritmo general para llevar a cabo la fase de vuelo se realiza utilizando la 
siguiente definición. 
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Definición 15.2.1. Un proceso aleatorio discreto r(t) = [rrj.(t)] en RN, t = 
0,1,... se lama una martingala balanceada para un vector de probabilidades 
de inclusión Tr y para las variables auxiliares 21,..., Cp, Si 


1. (0)=", 
2. Elm(t)|r(t-1),...., (0) =r(t-1),t=1,2,... 
3. r(t) € K = [0,10 N (rr + ker 4) 


15.2.3 Implementación de la fase de vuelo 


Primero, inicializamos por (0) = . Luego, En la etapa t = 1,....,T, 


1. Definimos un vector u(t) = [uz (t)] 4 0 tal que 


e u(t) es en el kernel de la matriz A, 


e ux(t) =0 si ry(t) es entero. 
2. Calculamos Aj(t) y A3(t), el valor más grande tal que 
0< (0) +A ult) < 1, 


0< r(t) — Abju(t) < 1, 


3. Elegimos 
(+) = T(t—-1)+Aj(t)Ju(t) con probabilidad q1 (+) 
MIA rt 1) -A(uít) con probabilidad ga(t) 
donde 
qr(t) = Ar(t)/(A1(8) + A2 (1) 
y 


q2ít) = A()/A1(8) + A3(8)) 


15.2.4 La fase de aterrizaje 


Al final de la primera fase, la martingala balanceada ha alcanzado un vértice de 
K, el cual no es necesariamente un vértice de C. Este vértice es denotado como 
a = [mm] = (T). Sea q el número de componentes no enteras en este vértice. Si 
q = 0, el algoritmo está completo. Si q > O algunas restricciones no pueden ser 
satisfechas rigurosamente. 


Sea U =([k € UJO < mí, < 1]. El objetivo es buscar un diseño muestral que arroje 
una muestra s* C U* tal que 


> aj A Y apmi = Y AkTE, 


kEeS keU keU 


con 4 = Xx y s* =snuU*, 
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Esto se resuelve mediante programación lineal. Aplicando el método simplex te- 
nemos 


mín de Costo(s)p*(s), 


P ra 


sujeto a 


SY p(s*) =1 (15.2.1) 


s*CU 
S p(s*) =m4 (15.2.2) 
s*>k 
0<p(s) <1 (15.2.3) 


En donde Costo(s) es el costo de la muestra, que aumenta si las ecuaciones de 
balanceo, dadas en las secciones anteriores, no se tienen. Luego se selecciona una 
muestra con un diseño de muestreo p(-)*. Este programa no depende del tamaño 
poblacional sino sólo del número de variables de balanceo. Si el número de variables 
auxiliares es muy grande, al final de la fase de vuelo se debe eliminar una variable 
auxiliar. Por esta razón es importante ordenar las variables de balanceo de acuerdo 
a la correlación con las variables de interés. 


Varianza 


Deville éz Tillé (2005) han propuesto aproximar la varianza suponiendo que el 
muestreo balanceado se puede suponer como un muestreo condicional de Poisson. 
Así, 
. a N E? 
Var(tyr) = Var(Enpoisson) = N=5 2 7 Ta(1— rg), (15.2.4) 


donde Ex = Y — X,,B. 


Ejemplo 15.2.2. Nótese que la misma función que cumple el muestreo balancea- 
do, la cumple el diseño de muestreo PT, puesto que, en virtud del conocimiento 
de un característica de interés, se garantiza, siguiendo el resultado 4.3.2, que el 
estimador del total poblacional de la característica de información auxiliar, bs 
reproduzca al total poblacional de la característica de interés, t,, con varianza 
nula. 


Sin embargo, el diseño de muestreo TP'T, cumple esta función solamente para una 
y sólo una característica de información auxiliar, y cuando el investigador puede 
tener acceso a varias características de información auxiliar de manera simultanea, 
entonces el muestreo TP'T deja de ser útil. En este orden de ideas, se pude decir 
que, abusando del lenguaje, el diseño de muestreo balanceado es una generalización 
del diseño de muestreo TPT. 


Este ejemplo trata de ilustrar el procedimiento computacional para la obtener el 
objetivo final de la selección de una muestra balanceada. Se utilizará la población 
MU284 (Sárndal, Swensson éz Wretman 1992) para tales efectos. En primer lugar 
suponga, sin pérdida de generalidad, que se planea utilizar, en principio, un di- 
seño de muestreo rPT (podría ser cualquier otro diseño de muestreo). Utilizando 
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la función inclusionprobabilities del paquete sampling, se obtienen las pro- 
babilidades de inclusión inducidas por este diseño de muestreo con probabilidad 
proporcional a la característica de información auxiliar P75. Nótese que el tamaño 
de la muestra es de 50 unidades. 


library(sampling) 

data(MU284) 

attach(MU284) 
pik=inclusionprobabilities(MU284$P75,50) 
sum (pik) 

[1] 50 


VvVvyvoy 


Suponga que deseamos obtener una muestra balanceada con respecto a todas las 
características de información auxiliar dadas por P75, CS82, 5582, 582, ME84 
Y REV84. Para esto, incluimos todos los valores poblacionales observados de es- 
tas variables de balanceo en una matriz. A continuación, utilizamos la función 
samplecube para obtener una muestra que sea balanceada con respecto a todos 
los totales poblacionales de todas las variables de balanceo. 


> X=cbind(MU284$P75,MU284$CS82,MU284$S582, 
MU284$882 ,MU284$ME84 ,MU284$REV84) 
> s=samplecube(X,pik,order=1,comment=TRUE) 


BEGINNING OF THE FLIGHT PHASE 

The matrix of balancing has 6 variables and 284 units 

The size of the inclusion probability vector is 284 

The sum of the inclusion probability vector is 50 

The inclusion probability vector has 281 non-integer elements 
Step 1 


BEGINNING OF THE LANDING PHASE 

At the end of the flight phase, there remain 6 non integer 
probabilities. The sum of these probabilities is 2 

This sum is integer 

The linear program will consider 15 possible samples 

The mean cost is 0.02644766 

The smallest cost is 0.005041543 

The largest cost is 0.05423445 

The cost of the selected sample is 0.01280451 


QUALITY OF BALANCING 
TOTALS HorvitzThompson_estimators Relative_deviation 


1 8182 8182.000 -5.557900e-14 
2 2583 2567 .547 -5.982456e-01 
3 6301 6194.726 -1.686628e+00 
4 13500 13275.528 -1.662755e+00 
5 505226 503726.047 -2.968875e-01 
6 874017 881901.409 9.020887e-01 


Nótese que la salida de esta función es muy explicativa. Para este caso particular, 
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se necesito tanto de la fase de vuelo como de la fase de aterrizaje. Al final de la 
fase de vuelo, quedaban seis individuos cuyas probabilidades no eran cero o uno. 
Por lo tanto, el método del cubo, necesita de la fase de aterrizaje para alcanzar 
convergencia. Además de los comentarios para cada fase del método del cubo, 
esta función también devuelve una tabla que describe la calidad del procedimiento 
en términos de la desviación relativa. El lector no debe pasar por alto la calidad 
del balanceo. Es simplemente extraordinario que se consiga tal exactitud con una 
muestra de tan sólo 50 unidades. 


15.3 Marco y Lucy 


Este capítulo cierra con la implementación del método del cubo para la selección 
de muestras balanceadas. Suponga que el investigador conoce el comportamiento 
estructural de algunas características de interés; a saber, Ingreso y Número de 
empleados. Para seleccionar una muestra balanceada, en principio, fijas las proba- 
bilidades de inclusión de acuerdo a un diseño de muestreo aleatorio simple. Como 
de costumbre, inserta la matriz de observaciones de las características de interés 
en la función samplecube. 


library(TeachingSampling) 

data (Lucy) 

attach (Lucy) 

pik=rep(400/2396,2396) 

X <- cbind(Income, Employees) 
s=samplecube(X,pik,order=1,comment=TRUE) 


VMVVWvVOyvoyvVv oy 


BEGINNING OF THE FLIGHT PHASE 

The matrix of balanced variable has 2 variables and 2396 units 
The size of the inclusion probability vector is 2396 

The sum of the inclusion probability vector is 400 

The inclusion probability vector has 2396 non-integer elements 
Step 1 


BEGINNING OF THE LANDING PHASE 

At the end of the flight phase, there remain 

2 non integer probabilities 

The sum of these probabilities is 1.046484 

This sum is non-integer 

The linear program will consider 3 possible samples 
The mean cost is 0.001172141 

The smallest cost is 6.929445e-05 

The largest cost is 0.002644001 

The cost of the selected sample is 6.92944b5e-05 


QUALITY OF BALANCING 

TOTALS  HorvitzThompson Relative_deviation 
Income 1035217 1035754.9 0.051956257 
Employees 151950 151954.3 0.002843040 
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Para este caso particular, la función samplecube que implementa el método del 
cubo necesitó tanto de la fase de vuelo como de la fase de aterrizaje para alcanzar 
la convergencia. La fase de vuelo concluyó con 2 elementos cuyas probabilidades 
de inclusión no eran cero o uno. Sin embargo, después de la fase de aterrizaje una 
muestra balanceada fue seleccionada. Una vez más no puede pasar inadvertida la 
calidad del balanceo. 


Después de haber seleccionado la muestra balanceada, es tiempo de obtener las 
estimaciones pertinentes. En general, es posible utilizar la función E.piPS del 
paquete TeachingSampling puesto que el marco general del muestreo balanceado 
se acomoda a las características que rigen la estimación de Horvitz-Thompson. 


sam <- (1:length(pik)) [s==1] 

pik.s <- pik[sam] 

muestra <- Lucy[sam,] 

attach(muestra) 

estima <- data.frame(Income, Employees, Taxes) 


VvVWvyvoy 


NA 


E.piPS(estima,pik.s) 

Income Employees Taxes 
Estimation 1.035755e+06 1.519543e+05 2.957862e+04 
Variance  8.7/39838e+08 1.253370e+07 3.5215238e+06 
CVE 2.854268e+00 2.329843e+00 6.344353e+00 


Los resultados que arroja la función son óptimos, en el sentido de que además de 
obtener estimaciones cercanas al total poblacional para la característica de interés 
también mantiene los totales poblaciones de las características de interés en el 
diseño de muestreo. 


Tabla 15.1: Muestreo balanceado: estimación de los totales de las características 
de interés. 
Variable Total poblacional Total estimado cve%  Desv.% 


Ingreso 1035217 1035755 2.85 0.05 
Empleados 151950 151954 2.32 0.00 
Impuestos 28654 29578 6.34 3.22 


15.4 Desarrollos recientes y preguntas frecuentes 


El muestreo balanceado es un procedimiento común en el presente. Se utiliza para 
la selección de la muestra maestra en el INSEE, en Francia y para el nuevo censo 
Frances que selecciona cada año un quinto de la población para entrevistarla. Es 
decir en cinco la población es censada. 


15.4.1 Algunas preguntas 


Tillé (2006) responde algunas preguntas que surgen directamente con respecto al 
funcionamiento de este nuevo método en la práctica: 
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e ¡Por qué no usar calibración en vez de balanceo? 

La estratificación es un caso particular del muestreo balanceado, la post- 
estratificación es un caso particular de la calibración. En estratificación y 
balanceo, los pesos no son aleatorios. Esto hace que sea una mejor estrate- 
gia. La calibración tiene la ventaja de sólo requerir el conocimiento de los 
totales poblacionales de las variables auxiliares, mientras que en el balanceo 
se require el conocimiento de los valores de las variables auxiliares para todas 
las unidades de la población. 


e ¿Qué tan precisa es la aproximación de la estimación en muestreo 
balanceado? 
Deville £z Tillé (2004) han comprobado que bajo condiciones de regularidad 
realistas en la vida práctica se tiene que 


tay — txq 


< O(p/N) < op(1/N) 


para todo q =1,...,Q. 


e ¿Cómo estimar la varianza? 
Mediante una técnica de residual desarrollada en Deville € Tillé (2005). 
Esta técnica es comparable con la técnica usada para calcular la varianza 
del estimador de calibración y ha sido validada mediante un conjunto de 
simulaciones. 


e ¿Se puede usar balanceo y calibración simultáneamente? 
Ambas técnicas pueden ser usadas juntas. No hay ninguna contradicción. 
La mejor estrategia muestral consistiría en usarlas juntas. De hecho la cali- 
bración puede arreglar el problema del redondeo después del balanceo. Más 
aún, se pueden utilizar distintas variables en la calibración de las usadas en 
el balanceo. 


e ¿Qué software usar? 
En SAS-IML, existen dos paquetes (INSEE y University of Neuchátel), en R 
el paquete sampling permite usar el método del cubo. Estos softwares están 
disponibles en internet de manera gratuita. 


15.5 Ejercicios 


15.1 Suponga un diseño de muestreo de tamaño n = 2 para una población de 
tamaño N = 3 con una característica de información auxiliar tal que 1, = Tx 
(k=1,2,3) y además m, + 12 + 713 = 2 


Escriba las ecuaciones de balanceo. 


Calcule las entradas de la matriz A (sección 15.2.1). 


Defina el espacio nulo de la matriz A; es decir ker(A). 


Obtenga la forma explícita de Q = Tr + ker(A). 
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15.2 Suponga un diseño de muestreo balanceado con N =8 y n= 4. Ásuma que, 
el vector de probabilidades de inclusión de primer orden es 


A 
"A kO099 9191999 
y existen dos variables de balanceo; la primera, 114 = Tx y la segunda, 
xa2k = 1, para todo k € U. 


e Escriba las ecuaciones de balanceo. 
e Calcule las entradas de la matriz A. 
e Si la función de costo es 


Po 2 

t =t 
Costo (s) = > o 
x 


p=1 


Obtenga el costo generado por la fase de aterrizaje para las muestras: 
si = (1,0,0,0,0,1,1,1). 

/ 
y 
) 


/ 


? 


(0,0,0,1,1,1,0,1 
s3 = (0,0,1,1,0,0,1,1 
(0,0,1,1,0,1,1,0 


e Si la función de costo es 
Costoz(s) = (s— r/A'(AA')3A(s-—7r) 


Obtenga el costo generado por la fase de aterrizaje para las anteriores 
muestras. 


15.3 Demuestre o refute las siguientes afirmaciones 
e «Utilizar muestreo balanceado siempre mejora la eficiencia de la estra- 
tegia de muestreo> 
e <Utilizar calibración siempre mejora la eficiencia de la estrategia de 
muestreo balanceado> 
e <Utilizar calibración y muestreo balanceado siempre mejora la eficiencia 
de la estrategia de muestreo> 


Apéndice A 


Distribución normal 
estándar 


Cuantil Probabilidad acumulada | Cuantil Probabilidad acumulada 
z D(2) z D(2) 
-1.959 0.025 0.062 0.525 
-1.644 0.050 0.125 0.550 
-1.439 0.075 0.189 0.575 
-1.281 0.100 0.253 0.600 
-1.150 0.125 0.318 0.625 
-1.036 0.150 0.385 0.650 
-0.934 0.175 0.453 0.675 
-0.841 0.200 0.524 0.700 
-0.755 0.225 0.597 0.725 
-0.674 0.250 0.674 0.750 
-0.597 0.275 0.755 0.775 
-0.524 0.300 0.841 0.800 
-0.453 0.325 0.934 0.825 
-0.385 0.350 1.036 0.850 
-0.318 0.375 1.150 0.875 
-0.253 0.400 1.281 0.900 
-0.189 0.425 1.439 0.925 
-0.125 0.450 1.644 0.950 
-0.062 0.475 1.959 0.975 
0.000 0.500 2.033 0.979 
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